Роль модели DeepSeek в изменении подходов к разработке ИИ

Разное

12:50 07-04-2025

DimonVideo

Роль модели DeepSeek в изменении подходов к разработке ИИ

Сфера ИИ продолжает стремительно развиваться, и последние достижения бросают вызов устоявшимся парадигмам. В начале 2025 года китайская лаборатория ИИ DeepSeek представила новую модель, которая произвела фурор в индустрии ИИ и привела к 17-процентному падению акций Nvidia, а также других акций, связанных со спросом на центры обработки данных ИИ. Эта реакция рынка, как сообщалось в многочисленных публикациях, была вызвана очевидной способностью DeepSeek создавать высокопроизводительные модели по цене, значительно меньшей, чем у конкурентов в США, что вызвало дискуссию о последствиях для центров обработки данных ИИ.

Чтобы понять, что именно привнёс DeepSeek, надо рассмотреть более широкий сдвиг в сфере ИИ, вызванный нехваткой дополнительных обучающих данных. Поскольку основные лаборатории ИИ уже обучили свои модели на большей части доступных общедоступных данных в интернете, нехватка данных замедляет дальнейшее совершенствование предварительного обучения.

В результате поставщики моделей стремятся к «вычислениям во время тестирования» (TTC), при которых модели-рассуждения (например, серия моделей «o» от OpenAI) «размышляют» перед тем, как ответить на вопрос во время логического вывода, в качестве альтернативного метода повышения общей производительности модели.

В настоящее время считается, что TTC может демонстрировать улучшения по закону масштабирования, аналогичные тем, которые когда-то обеспечили предварительное обучение, потенциально открывая путь к следующей волне революционных достижений в области ИИ.

Эти события указывают на два важных изменения: во-первых, лаборатории, работающие с меньшими (по сравнению с заявленными) бюджетами, теперь способны выпускать самые современные модели. Во-вторых, TTC становится следующим потенциальным двигателем прогресса в области ИИ. Ниже рассмотрены обе эти тенденции и их потенциальное влияние на конкурентную среду и рынок ИИ в целом.

Считается, что переход к TTC и усиление конкуренции между моделями рассуждений могут иметь ряд последствий для более широкого ландшафта ИИ в сфере аппаратного обеспечения, облачных платформ, базовых моделей и корпоративного программного обеспечения.

Однако, если прогресс в вычислении времени движения поездов действительно находится на плаву, угроза быстрого перемещения уменьшается. В мире, где повышение производительности моделей достигается за счет оптимизации TTC, перед игроками прикладного уровня могут открыться новые возможности. Инновации в алгоритмах постобучения для конкретной предметной области, такие как структурированная оперативная оптимизация, стратегии рассуждения с учетом задержек и эффективные методы выборки, могут обеспечить значительное повышение производительности в целевых вертикалях.

Любое повышение производительности будет особенно актуально в контексте моделей, ориентированных на рассуждения, таких как GPT-4o и DeepSeek-R1 от OpenAI, которые часто демонстрируют время отклика в несколько секунд.

В приложениях, работающих в режиме реального времени, сокращение задержек и повышение качества логического вывода в рамках определённой области может обеспечить конкурентное преимущество. Таким образом, компании, работающие на прикладном уровне и обладающие экспертными знаниями в определённой области, могут сыграть ключевую роль в оптимизации эффективности логического вывода и тонкой настройке результатов.

DeepSeek демонстрирует снижение внимания к постоянно растущему объему предварительной подготовки как единственному фактору качества модели. Вместо этого разработка подчеркивает растущую важность TTC. Хотя прямое внедрение моделей DeepSeek в корпоративные программные приложения остается неопределенным из-за продолжающегося изучения, их влияние на улучшение других существующих моделей становится все более очевидным.

Достижения DeepSeek побудили ведущие лаборатории в области ИИ внедрить аналогичные методы в свои инженерные и исследовательские процессы, дополнив существующие аппаратные преимущества. Как и предполагалось, снижение стоимости моделей, по-видимому, способствует более широкому использованию моделей в соответствии с принципами парадокса Джевонса.

Источник

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Роль модели DeepSeek в изменении подходов к разработке ИИ

Разное

Похожие файлы

Microsoft сделала модель DeepSeek R1 доступной на Azure AI и в GitHub Models

Китайские телеком-гиганты сотрудничают с AI-моделью DeepSeek

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

ИИ-модель DeepSeek превысила 20 млн ежедневных активных пользователей через 21 день после запуска