Банковский сейф никогда не открывается целиком: через маленькое окошко можно запросить только средний остаток по группе счетов, а не данные конкретного клиента. Математики Павел Галманов и Валерий Конявский с кафедры защиты информации МФТИ разработали строгий метод, позволяющий заранее ответить на главный вопрос: сколько именно вопросов нужно, чтобы «сейф» оказался взломан? Результаты исследования опубликованы в Artificial Intelligence and Human-Computer Interaction.
Современные системы обработки данных все чаще строятся так, чтобы никто включая системного администратора не мог получить доступ к отдельным записям. Анклав возвращает лишь агрегированную статистику: среднее, сумму, дисперсию, причем еще и с намеренно добавленным шумом для дополнительной защиты. Дифференциальная приватность, которая считается золотым стандартом защиты, гарантирует: ни один запрос не должен раскрывать информацию об отдельном человеке. Но что если атакующий посылает тысячи запросов и комбинирует ответы с открытыми данными? Это может привести к взлому.

Математики из МФТИ формализовали атаку злоумышленника как задачу обращения оператора — класс математических задач, изученных еще Адамаром и Тихоновым. По существу, атакующий располагает набором «зашумленных уравнений» (ответы анклава) и хочет найти скрытую переменную (чувствительный атрибут). Задача некорректна в смысле Адамара: она может иметь бесконечно много решений, и малые ошибки в данных влекут огромные ошибки в ответе. Именно это свойство анклав эксплуатирует как защиту. Но именно это же свойство поддается точному математическому анализу.
Метод, предложенный физтехами, работает в три шага.
Первый — оценка уровня шума анклава: система задает одинаковые запросы несколько раз подряд и по разбросу ответов вычисляет дисперсию помех.
Второй — обучение предиктора под оцененный шум.
Третий — проверка: удалось ли предиктору существенно предсказывать скрытый атрибут, или его точность статистически неотличима от случайного угадывания.

Ключевой результат исследования заключается во введении понятия «порога утечки» q*: это минимальное число запросов, при котором предиктор начинает работать достаточно хорошо, чтобы детектирование было статистически значимым.
Если система позволяет задать q меньше q* вопросов, она безопасна для данного злоумышленника. Математически авторы показали: q* растет с уровнем шума монотонно — добавляя больше «тумана», анклав откладывает момент взлома. Но и обратное верно: при малом шуме q* может оказаться неожиданно маленьким, и «сейф» открывается гораздо быстрее, чем предполагают интуитивные оценки.
Метод также позволяет вычислить, через какой именно канал данных происходит утечка. Для каждого источника агрегатов вычисляется «вклад в предсказание»: если отключить этот канал, насколько упадет точность атаки?
Каналы с высоким вкладом — кандидаты на огрубление, дополнительный шум или отключение. По сути, авторы дают оператору анклава аудиторский отчет: не просто «риск есть», а «риск вот здесь, и вот конкретные меры».
Подход уже прошел испытание в реальных условиях: метод был внедрен в банковскую платформу скоринга рисков, агрегирующую данные от нескольких операторов. Система используется для мониторинга и установки безопасных бюджетов запросов — сигнал о том, что математика здесь не оторвана от практики.
Фундаментальное значение работы состоит в том, что она переводит вопрос безопасности анклава из категории «либо защищено, либо нет» в количественное измерение. Дифференциальная приватность дает формальные гарантии в наихудшем случае; предложенный метод спрашивает: а что происходит в реальном сценарии, с реальными параметрами шума и реальными возможностями злоумышленника?
Павел Галманов, научный сотрудник кафедры защиты информации ФРТК МФТИ, пояснил суть подхода: «Мы смотрим на задачу атаки глазами математика, работающего с некорректными уравнениями. Шум анклава — не просто помеха, это физический параметр системы, который нужно измерить и встроить в процедуру оценки. Как только мы это сделали, стало возможным точно отвечать на вопрос: достаточно ли вашего шума, или вам нужно добавить еще? До сих пор этот вопрос решался интуитивно».
Результаты открывают путь к разработке стандартов аудита приватных анклавов — аналога финансового аудита, но для систем защиты персональных данных. Следующий шаг — распространение подхода на адаптивных атакующих, которые не задают заранее определенные запросы, а строят стратегию в режиме реального времени, опираясь на уже полученные ответы.
