Учёные из Оксфордского интернет-института разработали уникальную математическую модель, которая впервые предоставляет научную основу для оценки методов идентификации, особенно при работе с большими данными. Это может включать, например, анализ точности таких технологий, как «отпечаток браузера» — техники, использующей настройки браузера и часовой пояс для идентификации пользователей.
Ведущий автор исследования, доктор Люк Роше, старший научный сотрудник Оксфордского интернет-института, пояснил:
«Мы видим в нашем методе новый подход к оценке рисков повторной идентификации при публикации данных, а также к анализу современных методов идентификации в критически важных областях. В таких сферах, как больницы, гуманитарная помощь или пограничный контроль, точная идентификация имеет жизненно важное значение».
Метод основан на байесовской статистике, что позволяет точнее оценивать, насколько легко можно идентифицировать человека в малых масштабах, и экстраполировать эту оценку на большие популяции с точностью до 10 раз выше, чем предыдущие подходы. Это помогает объяснить, почему некоторые ИИ-методы, демонстрирующие высокую точность на небольших тестах, допускают ошибки в реальных условиях.
Исследователи ожидают, что их работа будет полезна учёным, специалистам по защите данных, этическим комитетам и другим практикам, стремящимся сбалансировать необходимость обмена данными для исследований с защитой конфиденциальности участников.
Сопутствующий автор, профессор Ив-Александр де Монжуа из Имперского колледжа Лондона, добавил:
«Наша новая масштабируемая модель впервые предоставляет математическую основу для оценки эффективности методов идентификации. Понимание масштабируемости имеет решающее значение для оценки рисков и соблюдения современных законов о защите данных во всём мире».
Методика может быть особенно актуальной в условиях роста технологий ИИ, применяемых для автоматической идентификации по голосу в онлайн-банкинге, радужной оболочке глаза в гуманитарной помощи или лицу в правоохранительных органах. Новая модель позволит выявлять потенциальные уязвимости и дорабатывать системы до их широкого внедрения, что обеспечит их безопасность и точность.
Исследование под названием «Закон масштабирования для моделирования эффективности методов идентификации» опубликовано в журнале Nature Communications и было проведено совместно с учёными из Имперского колледжа Лондона и университета UCLouvain.