категории | RSS

Gemini 2.5 Flash от Google показала худшие результаты по безопасности

Согласно внутреннему сравнительному анализу компании, недавно выпущенная модель искусственного интеллекта Google показала худшие результаты в некоторых тестах безопасности, чем ее предшественница.

В техническом отчете, опубликованном на этой неделе, Google раскрывает, что его модель Gemini 2.5 Flash с большей вероятностью будет генерировать текст, нарушающий его правила безопасности, чем Gemini 2.0 Flash По двум показателям — «безопасность text-to-text» и «безопасность image-to-text», Gemini 2.5 Flash регрессирует на 4,1% и 9,6% соответственно.

Метрика «text-to-text» показывает, как часто модель генерирует недопустимый контент (нарушающий правила Google) в ответ на текстовый запрос. Метрика «image-to-text», в свою очередь, оценивает, насколько строго модель следует этим правилам, когда запрос задан с помощью изображения. Оба вида тестирования проводятся автоматически, без участия людей.

В заявлении, отправленном по электронной почте, представитель Google подтвердил, что Gemini 2.5 Flash показывает худшие результаты в вышеупомянутых параметрах. Эти результаты тестов получены, поскольку компании AI стремятся сделать свои модели более терпимыми — другими словами, менее склонными отказываться отвечать на спорные или деликатные темы. Для своего последнего урожая моделей Llama Meta* заявила, что настроила модели так, чтобы они не поддерживали «одни взгляды в ущерб другим» и отвечали на более «обсуждаемые» политические подсказки.

Ранее в этом году OpenAI заявила, что настроит  будущие модели  так, чтобы они не занимали редакционную позицию и предлагали несколько точек зрения на спорные темы. Иногда эти усилия по обеспечению вседозволенности имели обратный эффект. TechCrunch сообщил в понедельник, что модель по умолчанию, лежащая в основе ChatGPT OpenAI, позволяла несовершеннолетним вести эротические разговоры. OpenAI обвинила в этом поведении «баг».

Согласно техническому отчету Google, Gemini 2.5 Flash, который все еще находится в стадии предварительной версии, следует инструкциям более точно, чем Gemini 2.0 Flash. Компания утверждает, что генерацию таких ответов можно отчасти отнести к ложным срабатываниям, но также признает, что Gemini 2.5 Flash иногда генерирует «нарушающий контент», когда его об этом прямо просят.

«Естественно, существует противоречие между выполнением инструкций по деликатным темам и нарушениями политики безопасности, что отражается в наших оценках», — говорится в отчете.

Результаты SpeechMap, бенчмарка, который исследует, как модели реагируют на деликатные и спорные подсказки, также показывают, что Gemini 2.5 Flash гораздо реже отказывается отвечать на спорные вопросы, чем Gemini 2.0 Flash. Тестирование модели TechCrunch с помощью платформы AI OpenRouter показало, что она безропотно пишет эссе в поддержку замены судей на AI, ослабления надлежащей правовой процедуры в США и внедрения широкомасштабных программ правительственной слежки без ордера.

Томас Вудсайд, соучредитель проекта Secure AI Project, заявил, что ограниченность данных, предоставленных Google в своем техническом отчете, свидетельствует о необходимости большей прозрачности при тестировании моделей.«Существует компромисс между выполнением инструкций и выполнением политики, поскольку некоторые пользователи могут запрашивать контент, который нарушает политику», — сказал Вудсайд TechCrunch.

«В этом случае последняя модель Flash от Google больше соответствует инструкциям, но при этом больше нарушает политику. Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя и утверждает, что они не являются серьезными. Не зная больше, независимым аналитикам сложно понять, есть ли проблема».

Компания Google уже подвергалась критике за свою модель отчетности по безопасности. Компании потребовались недели, чтобы опубликовать технический отчет для своей самой мощной модели Gemini 2.5 Pro. Когда отчет в конечном итоге был опубликован, в нем изначально отсутствовали ключевые детали испытаний безопасности. И только в понедельник Google опубликовал более подробный отчет с дополнительной информацией по безопасности.

Источник



Источник новости: habr.com

DimonVideo
2025-05-04T10:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика