Безопасность · в карточках

Безопасность наших AI-решений

Самые частые вопросы о приватности — коротко и простым языком. Принцип один: сырьё и персональные данные не покидают ваш контур, наружу уходит только обезличенное.

Эти принципы лежат в основе всех наших внедрений — от медицинских ассистентов до discovery-агентов на закрытых корпоративных данных.

01

Что значит «работа в контуре»?

«Контур» — это закрытый периметр вашей компании: ваши серверы (on-premise) или ваше частное облако. Решение разворачивается внутри него — как сейф, который стоит внутри банка, а не в чужом хранилище.

Это значит, что исходные данные, поисковый движок, база знаний и хранилище ключей живут на вашей территории и под вашим управлением. Они не «уезжают» к нам, к вендору модели или куда-то ещё. Доступ к системе и право управлять ею — только у вас.

Технически это контейнеры (Docker), которые поднимаются на вашем оборудовании за часы. Вы не отдаёте свои документы наружу — вы пускаете инструмент внутрь, где он работает в ваших стенах.

Коротко: данные приходят к инструменту, а не инструмент уносит данные.

02

Какие данные видит система?

Здесь важно разделить два пространства — внутри контура и снаружи.

  • Внутри контура система видит ровно то, что вы ей дали: почту, чаты, документы, выгрузки из учётных систем — целиком. Это нужно, чтобы находить факты, строить карты процессов и отвечать на вопросы. Всё это остаётся внутри и никуда не передаётся.
  • Наружу (во внешнюю LLM) уходит не весь массив, а маленький фрагмент под конкретный запрос — и только после обезличивания.

Перед отправкой все персональные данные — имена, ИНН/БИН/ИИН, телефоны, адреса, паспортные данные — вырезаются и заменяются на метки-заглушки. Вместо «Иван Петров» в текст подставляется ‹PERSON_42›, вместо номера компании — ‹ORG_17›. Внешняя модель видит структуру, логику и связи документа, но не видит, кто за ними стоит.

А самое чувствительное — коммерческая тайна и данные с высшим грифом — не уходит наружу вообще: его обрабатывает локальная модель внутри контура.

03

Почему, несмотря на зарубежные LLM, это надёжно и безопасно?

Потому что зарубежная модель — это «вычислительный движок» для тяжёлой умственной работы, который получает обезличенную задачу-головоломку, а не ваши данные. Безопасность держится на нескольких независимых слоях:

  • Наружу уходят только метки, а не реальные данные. Модель физически не получает имён, номеров и персональных данных — она работает с заглушками вроде ‹PERSON_42›.
  • Ключ «метка ↔ реальное значение» остаётся у вас. Таблица соответствий (token vault) хранится только внутри контура и зашифрована. Понять, «кто есть кто», можно лишь внутри, у авторизованных сотрудников.
  • Эндпоинт — только zero-retention. Внешняя модель подключается в режиме «без сохранения запросов и без обучения на ваших данных», по договору (DPA). Запрос отработал — и исчез.
  • Запрещено по умолчанию (fail-closed). Если система не уверена, что фрагмент полностью очищен от персональных данных, он просто не отправляется. Приоритет — у безопасности, а не у удобства.
  • Самое чувствительное не уходит вообще. Маршрутизация по грифу: данные высшего класса остаются и обрабатываются локально.

Даже в худшем сценарии утечки наружу попадёт обезличенный текст с метками — без возможности восстановить личности, потому что ключ к ним физически не покидает ваш контур.

04

Почему это не влияет на эффективность работы системы?

Распространённый страх: «если всё прятать и обезличивать, система начнёт тупить и тормозить». На практике — нет, и вот почему:

  • Качество ответа не падает. Тяжёлый синтез выполняет та же сильная фронтир-модель. Она рассуждает над структурой, связями и логикой — а метки-заглушки несут для неё ту же информацию, что и имена. Модель не становится глупее оттого, что «Иван Петров» назван ‹PERSON_42›.
  • Лёгкие операции — локально и быстро. Поиск, эмбеддинги и классификация работают внутри контура на скромном железе (CPU или одна GPU). Наружу выносится только самая ресурсоёмкая часть — генеративный синтез.
  • Обезличивание незаметно для пользователя. Оно происходит автоматически в конвейере за доли секунды — человек его не видит и не делает руками.
  • Результат вы видите в нормальном виде. На витрине метки мгновенно превращаются обратно в реальные имена и номера — для авторизованных сотрудников. Вы читаете понятный отчёт, а не ‹PERSON_42›.

Гибрид даёт лучшее от двух миров: качество топовой модели плюс приватность on-premise. При необходимости можно перейти на полностью локальную модель — но тогда синтез слабее; гибрид — оптимальный баланс скорости, качества и приватности.

05

Системы защиты — все ступени

Защита — это не одна стена, а конвейер из нескольких ступеней. Данные проходят их по порядку, и граница приватности отделяет всё локальное от того единственного шага, где задействуется внешняя модель.

  1. Приём (коннекторы)

    Источники принимаются как есть — почта, чаты, документы, сканы, выгрузки — без требования предварительной чистки. Каждому объекту присваивается «паспорт»: источник, владелец, дата, канал и гриф чувствительности.

  2. Контур приватности — ключевая ступень

    Всё сырьё обязательно проходит очистку до того, как попадёт в индекс или к модели:

    • распознавание текста и сканов; документы с персональными данными читает локальная модель — изображение не покидает контур;
    • удаление шума и дублей (подписи, дисклеймеры, цитаты-хвосты);
    • детекция и вырезание персональных данных → замена на обратимые метки ‹PERSON_42›, ‹BIN_8›;
    • зашифрованный волт токенов «метка ↔ значение» — хранится только on-premise;
    • тиринг чувствительности (T0/T1/T2) и маршрутизация: высший гриф наружу не уходит;
    • fail-closed PII-guard: не уверены, что чисто — не отправляем.
  3. Локальная индексация

    Эмбеддинги и векторное хранилище работают внутри контура. Векторы практически необратимы к исходному тексту. Гибридный поиск (смысловой + точный по номерам и кодам) — всё на вашей территории.

    — — — граница приватности — — —
  4. Синтез на обезличенном

    Это единственный шаг за пределами контура: внешняя модель получает обезличенный фрагмент под конкретный запрос. Спорные факты не выдаются за истину — они помечаются и идут на проверку человеком (состязательная верификация).

  5. Витрина и аудит

    Результат возвращается внутрь. Здесь происходит ре-идентификация — метки превращаются обратно в реальные значения, но только локально и только для авторизованных. Каждый исходящий запрос логируется (что именно ушло и в каком виде), а любой факт трассируется до источника.

Пять принципов под капотом

Инженерные правила, на которых держатся все карточки выше.

ПРИНЦИП 01

Данные не покидают периметр

Персональные данные и тайна, сырьё и волт токенов живут только on-premise. Наружу — обезличенный фрагмент под запрос, а не корпус целиком.

ПРИНЦИП 02

Обезличивание до индекса, fail-closed

Персональные данные вырезаются ещё до векторизации. Не гарантирована чистота — фрагмент остаётся локальным. Запрет по умолчанию.

ПРИНЦИП 03

Ре-идентификация только локально

Внешняя модель оперирует метками. Обратное сопоставление с реальными именами делает витрина внутри контура.

ПРИНЦИП 04

Соответствие требованиям

Хранение ПДн на вашей территории, шифрование канала (TLS), журналирование, аудит доступа. Внешний эндпоинт — только zero-retention с DPA. Контур согласуется с вашей ИБ-службой.

ПРИНЦИП 05

Аудит и обратимость

Каждый исходящий запрос логируется — видно, что ушло и в каком обезличенном виде. Любой артефакт трассируется до источника.

Обсудим контур под ваши требования ИБ

Покажем архитектуру на ваших данных, согласуем вариант инференса (гибрид / полностью локально) и подготовим решение под требования вашей службы безопасности.

info@ai-automation.llc Смотреть модули