Учёные Эдинбургского университета проверили способность семи мультимодальных больших языковых моделей интерпретировать и генерировать различные типы информации, включая ответы на вопросы о времени на основе различных изображений часов и календарей. Исследователи пришли к выводу, что БЯМ испытывают трудности с этими базовыми задачами.
Способности интерпретировать время и рассуждать о нем на основе визуальных входных данных имеют решающее значение для многих реальных применений — от планирования событий до автономных систем, отмечают авторы работы.
Несмотря на достижения в области мультимодальных БЯМ, большая часть работы над ними была сосредоточена на обнаружении объектов и надписей на изображениях, оставляя выводы о времени недостаточно изученными, продолжают исследователи.
Команда учёных протестировала GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind, Claude 3.5 Sonnet от Anthropic, Llama 3.2-11B-Vision-Instruct от Meta*, Qwen2-VL7B-Instruct от Alibaba и MiniCPM-V-2.6 от ModelBest.
Исследователи предоставляли моделям различные изображения аналоговых часов, включая циферблаты с римскими цифрами, разных цветов и без секундной стрелки. Также в модели загрузили изображения календарей за 10 лет.
Учёные задавали различные вопросы о времени и датах. Например, на какие числа выпадает Новый год или 153-й день в году.
Считывание показаний аналоговых часов и понимание календаря требует сложных когнитивных этапов, включая детальное визуальное распознавание (положение стрелок часов и расположение ячеек дня) и нетривиальных числовых рассуждений (смещение дней в високосном году), отмечает научная группа.
В целом ИИ-модели правильно считывали время на аналоговых часах менее чем в 25% случаев. БЯМ с трудом понимали показания часов с римскими цифрами и стилизованными стрелками так же, как и изображения без секундной стрелки. Проблема может быть связана с обнаружением стрелок и интерпретацией углов на циферблате, объясняют исследователи.
Gemini-2.0 показала наивысший результат в задаче с часами, а o1 была более точна в работе с календарём, но эта модель ошибалась примерно в 20% случаев.
Текущее исследование подчёркивает значительный пробел в способности ИИ выполнять базовые для людей действия, отмечает соавтор исследования и аспирант Школы информатики Эдинбургского университета Рохит Саксена. По его словам, подобные недостатки необходимо устранить для успешного внедрения ИИ-систем в чувствительные ко времени приложения.
Препринт научной работы «Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs» опубликован 7 февраля 2025 года на сайте arxiv.org (DOI: arXiv.2502.05092 [cs.CV]).
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена;
** — запрещены в России.
Источник новости: habr.com