категории | RSS

Роль модели DeepSeek в изменении подходов к разработке ИИ

Сфера ИИ продолжает стремительно развиваться, и последние достижения бросают вызов устоявшимся парадигмам. В начале 2025 года китайская лаборатория ИИ DeepSeek представила новую модель, которая произвела фурор в индустрии ИИ и привела к 17-процентному падению акций Nvidia, а также других акций, связанных со спросом на центры обработки данных ИИ. Эта реакция рынка, как сообщалось в многочисленных публикациях, была вызвана очевидной способностью DeepSeek создавать высокопроизводительные модели по цене, значительно меньшей, чем у конкурентов в США, что вызвало дискуссию о последствиях для центров обработки данных ИИ.

Чтобы понять, что именно привнёс DeepSeek, надо рассмотреть более широкий сдвиг в сфере ИИ, вызванный нехваткой дополнительных обучающих данных. Поскольку основные лаборатории ИИ уже обучили свои модели на большей части доступных общедоступных данных в интернете, нехватка данных замедляет дальнейшее совершенствование предварительного обучения. 

В результате поставщики моделей стремятся к «вычислениям во время тестирования» (TTC), при которых модели-рассуждения (например, серия моделей «o» от OpenAI) «размышляют» перед тем, как ответить на вопрос во время логического вывода, в качестве альтернативного метода повышения общей производительности модели. 

В настоящее время считается, что TTC может демонстрировать улучшения по закону масштабирования, аналогичные тем, которые когда-то обеспечили предварительное обучение, потенциально открывая путь к следующей волне революционных достижений в области ИИ.

Эти события указывают на два важных изменения: во-первых, лаборатории, работающие с меньшими (по сравнению с заявленными) бюджетами, теперь способны выпускать самые современные модели. Во-вторых, TTC становится следующим потенциальным двигателем прогресса в области ИИ. Ниже рассмотрены обе эти тенденции и их потенциальное влияние на конкурентную среду и рынок ИИ в целом.

Считается, что переход к TTC и усиление конкуренции между моделями рассуждений могут иметь ряд последствий для более широкого ландшафта ИИ в сфере аппаратного обеспечения, облачных платформ, базовых моделей и корпоративного программного обеспечения.

Однако, если прогресс в вычислении времени движения поездов действительно находится на плаву, угроза быстрого перемещения уменьшается. В мире, где повышение производительности моделей достигается за счет оптимизации TTC, перед игроками прикладного уровня могут открыться новые возможности. Инновации в алгоритмах постобучения для конкретной предметной области, такие как структурированная оперативная оптимизация, стратегии рассуждения с учетом задержек и эффективные методы выборки, могут обеспечить значительное повышение производительности в целевых вертикалях.

Любое повышение производительности будет особенно актуально в контексте моделей, ориентированных на рассуждения, таких как GPT-4o и DeepSeek-R1 от OpenAI, которые часто демонстрируют время отклика в несколько секунд. 

В приложениях, работающих в режиме реального времени, сокращение задержек и повышение качества логического вывода в рамках определённой области может обеспечить конкурентное преимущество. Таким образом, компании, работающие на прикладном уровне и обладающие экспертными знаниями в определённой области, могут сыграть ключевую роль в оптимизации эффективности логического вывода и тонкой настройке результатов.

DeepSeek демонстрирует снижение внимания к постоянно растущему объему предварительной подготовки как единственному фактору качества модели. Вместо этого разработка подчеркивает растущую важность TTC. Хотя прямое внедрение моделей DeepSeek в корпоративные программные приложения остается неопределенным из-за продолжающегося изучения, их влияние на улучшение других существующих моделей становится все более очевидным.

Достижения DeepSeek побудили ведущие лаборатории в области ИИ внедрить аналогичные методы в свои инженерные и исследовательские процессы, дополнив существующие аппаратные преимущества. Как и предполагалось, снижение стоимости моделей, по-видимому, способствует более широкому использованию моделей в соответствии с принципами парадокса Джевонса.

Источник



Источник новости: habr.com

DimonVideo
2025-04-07T12:50:04Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика