Независимая некоммерческая организация AI Forensics проанализировала более 10 000 автоматических резюме уведомлений, сообщений и писем, которые формирует Apple Intelligence на iPhone, iPad и Mac. Исследование показало систематические перекосы в отношении этничности и гендера.
Согласно техническому отчёту Apple, локальная модель Apple Intelligence содержит около 3 млрд параметров и выполняется на устройстве. Доступ к системе исследователи получили через официальный фреймворк для разработчиков, тот же, который Apple предлагает сторонним приложениям.
Для оценки этнических стереотипов команда AI Forensics подготовила 200 вымышленных новостных заметок с явным указанием этничности главных героев и создала четыре варианта каждой истории. Каждый вариант был суммирован десять раз, в итоге получилось 8 000 резюме. У героев с белой этничностью система упоминала этот признак лишь в 53 % случаев. Для темнокожих доля выросла до 64 %, для латиноамериканцев — до 86 %, для азиатов — до 89 %. Фактически белая этничность становится «невидимым» стандартом, а другие группы дополнительно выделяются.
Отдельно оценивались гендерные перекосы на основе 200 реальных заголовков BBC. Женские имена в резюме сохранялись в 80 % случаев, мужские — в 69 %. Мужчин чаще упоминали только по фамилии, что, как отмечают авторы, в исследованиях связывают с восприятием более высокого статуса.
Особое внимание в отчёте уделено тому, как система обращается с неоднозначными текстами. Исследователи создали более 70 000 сценариев с двумя персонажами разных профессий и двусмысленным местоимением. Корректное резюме должно сохранять эту неопределённость.
Apple Intelligence этого не делала. В 77 % случаев система приписывала местоимение конкретному человеку, хотя исходный текст не давал однозначного указания. Две трети таких «домыслов» совпадали с гендерными стереотипами: модель чаще связывала местоимение «она» с медсестрой, а «он» — с хирургом.
По восьми другим социальным признакам модель также дописывала характеристики, которых не было в источнике, примерно в 15 % случаев. Почти три четверти таких вставок отражали распространённые предубеждения. В резюме сирийского студента модель добавила связь с терроризмом, беременную соискательницу назвала непригодной к работе, а человека невысокого роста — некомпетентным, хотя этих оценок не было в исходных текстах.
По оценке AI Forensics, такие искажения нельзя списать только на сложность задачи. Для сравнения исследователи протестировали Gemma3-1B от Google — открытую модель примерно с третью параметров от Apple Intelligence. В аналогичных сценариях Gemma3-1B генерировала вымышленные атрибуты в 6 % случаев против 15 % у Apple. И даже когда это происходило, совпадения со стереотипами фиксировались в 59 % кейсов против 72 % у Apple.
AI Forensics также рассматривает результаты в контексте регулирования. По критериям регламента ЕС об ИИ (EU AI Act) модель Apple подпадает под категорию «General Purpose AI». С учётом масштаба распространения она потенциально может быть отнесена к системам с системным риском. При этом Apple не присоединилась к добровольному Кодексу практики, но, как отмечается в отчёте, пользуется двухлетним переходным периодом.
Ранее исследования крупных языковых моделей уже показывали, что такие системы воспроизводят социальные предубеждения. В частности, работа Университета Мичигана демонстрировала, что модели устойчиво дают лучшие результаты, когда роли формулируются в мужском или гендерно-нейтральном варианте, а не в женском.
Особенность Apple Intelligence в том, что пользователю не нужно вводить запрос или открывать чат. Эти резюме автоматически появляются на экране блокировки, в цепочках сообщений и в почтовом ящике. Система фактически встраивается между отправителем и получателем, хотя никто её об этом не просит.
В начале 2025 года Apple Intelligence уже оказывалась в центре внимания: система генерировала вымышленные новостные резюме от имени BBC и The New York Times. В ответ Apple отключила функцию суммирования для новостных приложений. Однако это не затронуло личную и рабочую переписку, где, по данным AI Forensics, сохраняются те же типы искажений.
Общий курс Apple в ИИ также сталкивается с трудностями. Обновления Siri, обещанные вместе с запуском Apple Intelligence, в значительной части так и не были реализованы, а ряд ключевых задач компания до сих пор не выполнила. На этом фоне появились сообщения, что Apple планирует опереться на модель Gemini от Google для работы своих устройств и Siri.
Источник: отчет AI Forensics, сообщения зарубежных СМИ.






















