01
Что значит «работа в контуре»?
«Контур» — это закрытый периметр вашей компании: ваши серверы (on-premise) или ваше частное облако. Решение разворачивается внутри него — как сейф, который стоит внутри банка, а не в чужом хранилище.
Это значит, что исходные данные, поисковый движок, база знаний и хранилище ключей живут на вашей территории и под вашим управлением. Они не «уезжают» к нам, к вендору модели или куда-то ещё. Доступ к системе и право управлять ею — только у вас.
Технически это контейнеры (Docker), которые поднимаются на вашем оборудовании за часы. Вы не отдаёте свои документы наружу — вы пускаете инструмент внутрь, где он работает в ваших стенах.
Коротко: данные приходят к инструменту, а не инструмент уносит данные.
02
Какие данные видит система?
Здесь важно разделить два пространства — внутри контура и снаружи.
- Внутри контура система видит ровно то, что вы ей дали: почту, чаты, документы, выгрузки из учётных систем — целиком. Это нужно, чтобы находить факты, строить карты процессов и отвечать на вопросы. Всё это остаётся внутри и никуда не передаётся.
- Наружу (во внешнюю LLM) уходит не весь массив, а маленький фрагмент под конкретный запрос — и только после обезличивания.
Перед отправкой все персональные данные — имена, ИНН/БИН/ИИН, телефоны, адреса, паспортные данные — вырезаются и заменяются на метки-заглушки. Вместо «Иван Петров» в текст подставляется ‹PERSON_42›, вместо номера компании — ‹ORG_17›. Внешняя модель видит структуру, логику и связи документа, но не видит, кто за ними стоит.
А самое чувствительное — коммерческая тайна и данные с высшим грифом — не уходит наружу вообще: его обрабатывает локальная модель внутри контура.
03
Почему, несмотря на зарубежные LLM, это надёжно и безопасно?
Потому что зарубежная модель — это «вычислительный движок» для тяжёлой умственной работы, который получает обезличенную задачу-головоломку, а не ваши данные. Безопасность держится на нескольких независимых слоях:
- Наружу уходят только метки, а не реальные данные. Модель физически не получает имён, номеров и персональных данных — она работает с заглушками вроде ‹PERSON_42›.
- Ключ «метка ↔ реальное значение» остаётся у вас. Таблица соответствий (token vault) хранится только внутри контура и зашифрована. Понять, «кто есть кто», можно лишь внутри, у авторизованных сотрудников.
- Эндпоинт — только zero-retention. Внешняя модель подключается в режиме «без сохранения запросов и без обучения на ваших данных», по договору (DPA). Запрос отработал — и исчез.
- Запрещено по умолчанию (fail-closed). Если система не уверена, что фрагмент полностью очищен от персональных данных, он просто не отправляется. Приоритет — у безопасности, а не у удобства.
- Самое чувствительное не уходит вообще. Маршрутизация по грифу: данные высшего класса остаются и обрабатываются локально.
Даже в худшем сценарии утечки наружу попадёт обезличенный текст с метками — без возможности восстановить личности, потому что ключ к ним физически не покидает ваш контур.
04
Почему это не влияет на эффективность работы системы?
Распространённый страх: «если всё прятать и обезличивать, система начнёт тупить и тормозить». На практике — нет, и вот почему:
- Качество ответа не падает. Тяжёлый синтез выполняет та же сильная фронтир-модель. Она рассуждает над структурой, связями и логикой — а метки-заглушки несут для неё ту же информацию, что и имена. Модель не становится глупее оттого, что «Иван Петров» назван ‹PERSON_42›.
- Лёгкие операции — локально и быстро. Поиск, эмбеддинги и классификация работают внутри контура на скромном железе (CPU или одна GPU). Наружу выносится только самая ресурсоёмкая часть — генеративный синтез.
- Обезличивание незаметно для пользователя. Оно происходит автоматически в конвейере за доли секунды — человек его не видит и не делает руками.
- Результат вы видите в нормальном виде. На витрине метки мгновенно превращаются обратно в реальные имена и номера — для авторизованных сотрудников. Вы читаете понятный отчёт, а не ‹PERSON_42›.
Гибрид даёт лучшее от двух миров: качество топовой модели плюс приватность on-premise. При необходимости можно перейти на полностью локальную модель — но тогда синтез слабее; гибрид — оптимальный баланс скорости, качества и приватности.
05
Системы защиты — все ступени
Защита — это не одна стена, а конвейер из нескольких ступеней. Данные проходят их по порядку, и граница приватности отделяет всё локальное от того единственного шага, где задействуется внешняя модель.
-
Приём (коннекторы)
Источники принимаются как есть — почта, чаты, документы, сканы, выгрузки — без требования предварительной чистки. Каждому объекту присваивается «паспорт»: источник, владелец, дата, канал и гриф чувствительности.
-
Контур приватности — ключевая ступень
Всё сырьё обязательно проходит очистку до того, как попадёт в индекс или к модели:
- распознавание текста и сканов; документы с персональными данными читает локальная модель — изображение не покидает контур;
- удаление шума и дублей (подписи, дисклеймеры, цитаты-хвосты);
- детекция и вырезание персональных данных → замена на обратимые метки ‹PERSON_42›, ‹BIN_8›;
- зашифрованный волт токенов «метка ↔ значение» — хранится только on-premise;
- тиринг чувствительности (T0/T1/T2) и маршрутизация: высший гриф наружу не уходит;
- fail-closed PII-guard: не уверены, что чисто — не отправляем.
-
Локальная индексация
Эмбеддинги и векторное хранилище работают внутри контура. Векторы практически необратимы к исходному тексту. Гибридный поиск (смысловой + точный по номерам и кодам) — всё на вашей территории.
— — — граница приватности — — —
-
Синтез на обезличенном
Это единственный шаг за пределами контура: внешняя модель получает обезличенный фрагмент под конкретный запрос. Спорные факты не выдаются за истину — они помечаются и идут на проверку человеком (состязательная верификация).
-
Витрина и аудит
Результат возвращается внутрь. Здесь происходит ре-идентификация — метки превращаются обратно в реальные значения, но только локально и только для авторизованных. Каждый исходящий запрос логируется (что именно ушло и в каком виде), а любой факт трассируется до источника.