Математики из МФТИ измеряют утечки в защищенных анклавах данных - Журнал «За науку» — научно-популярные статьи на актуальные темы

Банковский сейф никогда не открывается целиком: через маленькое окошко можно запросить только средний остаток по группе счетов, а не данные конкретного клиента. Математики Павел Галманов и Валерий Конявский с кафедры защиты информации МФТИ разработали строгий метод, позволяющий заранее ответить на главный вопрос: сколько именно вопросов нужно, чтобы «сейф» оказался взломан? Результаты исследования опубликованы в Artificial Intelligence and Human-Computer Interaction.

Современные системы обработки данных все чаще строятся так, чтобы никто включая системного администратора не мог получить доступ к отдельным записям. Анклав возвращает лишь агрегированную статистику: среднее, сумму, дисперсию, причем еще и с намеренно добавленным шумом для дополнительной защиты. Дифференциальная приватность, которая считается золотым стандартом защиты, гарантирует: ни один запрос не должен раскрывать информацию об отдельном человеке. Но что если атакующий посылает тысячи запросов и комбинирует ответы с открытыми данными? Это может привести к взлому.

Рисунок 1. Архитектура защищенных вычислений: данные обрабатываются внутри изолированной доверенной среды (анклава), а внешнему миру выдаются лишь зашумленные агрегаты. Задача — измерить, насколько эти агрегаты все же позволяют восстановить скрытый атрибут. Источник: Разделение между анклавной и принимающей частями / blog.mithrilsecurity.io

Математики из МФТИ формализовали атаку злоумышленника как задачу обращения оператора — класс математических задач, изученных еще Адамаром и Тихоновым. По существу, атакующий располагает набором «зашумленных уравнений» (ответы анклава) и хочет найти скрытую переменную (чувствительный атрибут). Задача некорректна в смысле Адамара: она может иметь бесконечно много решений, и малые ошибки в данных влекут огромные ошибки в ответе. Именно это свойство анклав эксплуатирует как защиту. Но именно это же свойство поддается точному математическому анализу.

Метод, предложенный физтехами, работает в три шага.

Первый — оценка уровня шума анклава: система задает одинаковые запросы несколько раз подряд и по разбросу ответов вычисляет дисперсию помех.

Второй — обучение предиктора под оцененный шум.

Третий — проверка: удалось ли предиктору существенно предсказывать скрытый атрибут, или его точность статистически неотличима от случайного угадывания.

Рисунок 2. Схема концепции виртуального защищенного анклава памяти: данные изолированы от внешней среды, но взаимодействуют с ней через контролируемый интерфейс. Именно через этот интерфейс возможны косвенные утечки при накоплении запросов. Источник изображения: techcommunity.microsoft.com — Рисунок 2. Схема концепции виртуального защищенного анклава памяти: данные изолированы от внешней среды, но взаимодействуют с ней через контролируемый интерфейс. Именно через этот интерфейс возможны косвенные утечки при накоплении запросов. Источник: techcommunity.microsoft.com

Ключевой результат исследования заключается во введении понятия «порога утечки» q*: это минимальное число запросов, при котором предиктор начинает работать достаточно хорошо, чтобы детектирование было статистически значимым.

Если система позволяет задать q меньше q* вопросов, она безопасна для данного злоумышленника. Математически авторы показали: q* растет с уровнем шума монотонно — добавляя больше «тумана», анклав откладывает момент взлома. Но и обратное верно: при малом шуме q* может оказаться неожиданно маленьким, и «сейф» открывается гораздо быстрее, чем предполагают интуитивные оценки.

Метод также позволяет вычислить, через какой именно канал данных происходит утечка. Для каждого источника агрегатов вычисляется «вклад в предсказание»: если отключить этот канал, насколько упадет точность атаки?

Каналы с высоким вкладом — кандидаты на огрубление, дополнительный шум или отключение. По сути, авторы дают оператору анклава аудиторский отчет: не просто «риск есть», а «риск вот здесь, и вот конкретные меры».

Подход уже прошел испытание в реальных условиях: метод был внедрен в банковскую платформу скоринга рисков, агрегирующую данные от нескольких операторов. Система используется для мониторинга и установки безопасных бюджетов запросов — сигнал о том, что математика здесь не оторвана от практики.

Фундаментальное значение работы состоит в том, что она переводит вопрос безопасности анклава из категории «либо защищено, либо нет» в количественное измерение. Дифференциальная приватность дает формальные гарантии в наихудшем случае; предложенный метод спрашивает: а что происходит в реальном сценарии, с реальными параметрами шума и реальными возможностями злоумышленника?

Павел Галманов, научный сотрудник кафедры защиты информации ФРТК МФТИ, пояснил суть подхода: «Мы смотрим на задачу атаки глазами математика, работающего с некорректными уравнениями. Шум анклава — не просто помеха, это физический параметр системы, который нужно измерить и встроить в процедуру оценки. Как только мы это сделали, стало возможным точно отвечать на вопрос: достаточно ли вашего шума, или вам нужно добавить еще? До сих пор этот вопрос решался интуитивно».

Результаты открывают путь к разработке стандартов аудита приватных анклавов — аналога финансового аудита, но для систем защиты персональных данных. Следующий шаг — распространение подхода на адаптивных атакующих, которые не задают заранее определенные запросы, а строят стратегию в режиме реального времени, опираясь на уже полученные ответы.

Научная статья: Pavel Galmanov, Valery Konyavskiy. A Regularized Inverse-Problem Framework for Assessing Indirect Leakage Risk in Privacy-Preserving Data Enclaves. Artificial Intelligence and Human-Computer Interaction (FAIA), IOS Press, 2026. doi: 10.3233/FAIA251755