В четверг некоммерческий исследовательский институт ИИ Ai2 выпустил Olmo 2 1B, модель с 1 миллиардом параметров, которая, по утверждению Ai2, превосходит аналогичные по размеру модели от Google, Meta* и Alibaba по нескольким показателям.
Olmo 2 1B доступен под лицензией Apache 2.0 на платформе разработки AI Hugging Face. В отличие от большинства моделей, Olmo 2 1B можно скопировать с нуля; Ai2 предоставила код и наборы данных ( Olmo-mix-1124, Dolmino-mix-1124 ), использованные для его разработки.
Маленькие модели могут быть не такими способными, как их гигантские аналоги, но, что важно, для их работы не требуется мощное оборудование. Это делает их гораздо более доступными для разработчиков.
За последние несколько дней было выпущено множество небольших моделей, от семейства Phi 4 от Microsoft до 2.5 Omni 3B от Qwen . Большинство из них — и Olmo 2 1B — могут легко работать на современном ноутбуке или даже мобильном устройстве.
Ai2 утверждает, что Olmo 2 1B был обучен на наборе данных из 4 триллионов токенов из общедоступных, сгенерированных AI и созданных вручную источников. Токены — это сырые биты моделей данных, которые они принимают и генерируют — 1 миллион токенов эквивалентен примерно 750 000 слов.
В тесте на арифметические способности GSM8K Olmo 2 1B показала лучшие результаты, чем Gemma 3 1B от Google, Llama 3.2 1B от Meta и Qwen 2.5 1.5B от Alibaba. Olmo 2 1B также превосходит эти три модели по результатам TruthfulQA — теста для оценки фактической точности.
Однако Ai2 предупреждает, что Olmo 2 1B несет в себе риски. Как и все модели AI, он может производить «проблемные результаты», включая вредоносный и «чувствительный» контент, заявляет организация, а также фактически неточные заявления. По этим причинам Ai2 рекомендует не развертывать Olmo 2 1B в коммерческих условиях.
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации
Источник
Источник новости: habr.com