Когда DeepSeek-R1 только вышел на рынок, в отрасли преобладал страх, что сложные вычисления можно будет производить с использованием менее сложной инфраструктуры.
Как оказалось, это не всегда так. По крайней мере, по мнению Together AI, развитие DeepSeek и алгоритмов с открытым исходным кодом привело к прямо противоположному эффекту: вместо того, чтобы снизить потребность в инфраструктуре, оно её увеличило.
Этот возросший спрос способствовал развитию платформы и бизнеса Together AI. Сегодня компания объявила о привлечении 305 миллионов долларов в рамках раунда финансирования серии B, возглавляемого General Catalyst и Prosperity7. Компания Together AI впервые появилась в 2023 году с целью упростить использование крупных языковых моделей (LLM) с открытым исходным кодом на предприятиях. В 2024 году компания расширилась за счёт корпоративной платформы Together, которая позволяет развёртывать ИИ в виртуальном частном облаке (VPC) и локальных средах. В 2025 году Together AI снова расширяет свою платформу, добавляя кластеры логического мышления и возможности агентного ИИ.
Компания утверждает, что на её платформе для развёртывания ИИ зарегистрировано более 450 000 разработчиков и что бизнес вырос в 6 раз по сравнению с прошлым годом. Среди клиентов компании — предприятия, а также стартапы в сфере ИИ, такие как Krea AI, Captions и Pika Labs.
«Сейчас мы используем модели во всех сферах: в языке и мышлении, в изображениях, аудио и видео», — рассказал VentureBeat Випул Пракаш, генеральный директор Together AI.
DeepSeek-R1 произвёл революцию, когда впервые появился на рынке, по ряду причин, одна из которых заключалась в том, что передовая модель логического вывода с открытым исходным кодом может быть создана и внедрена с использованием меньшей инфраструктуры, чем проприетарная модель.
Однако, как объяснил Пракаш, компания Together AI расширила свою инфраструктуру, в том числе для поддержки возросшего спроса на рабочие нагрузки, связанные с DeepSeek-R1.
«Это довольно дорогая модель для выполнения логических выводов, — сказал он. — В ней 671 миллиард параметров, и её нужно распределять по нескольким серверам. А поскольку качество выше, спрос на неё, как правило, выше, а значит, вам нужно больше ресурсов».
Кроме того, он отметил, что запросы DeepSeek-R1 обычно выполняются дольше и могут длиться от двух до трёх минут. Огромный спрос пользователей на DeepSeek-R1 ещё больше увеличивает потребность в дополнительной инфраструктуре.
Чтобы удовлетворить этот спрос, компания Together AI запустила сервис под названием «Кластеры для логических вычислений», который предоставляет выделенные ресурсы — от 128 до 2000 процессоров — для запуска моделей с максимально возможной производительностью.
Компания Together AI также наблюдает рост спроса на инфраструктуру по мере того, как её пользователи внедряют агентский ИИ. Пракаш объяснил, что агентные рабочие процессы, при которых один пользовательский запрос приводит к тысячам вызовов API для выполнения задачи, создают большую вычислительную нагрузку на инфраструктуру Together AI.
Чтобы помочь в поддержке агентских рабочих нагрузок ИИ, компания Together AI недавно приобрела CodeSandbox, технология которой позволяет создавать лёгкие, быстро загружающиеся виртуальные машины (ВМ) для выполнения произвольного безопасного кода в облаке Together AI, где также находятся языковые модели. Это позволяет компании Together AI сократить время ожидания между агентским кодом и моделями, которые необходимо вызывать, повышая производительность агентских рабочих процессов.
Ко всем платформам искусственного интеллекта предъявляются повышенные требования. Это одна из причин, по которой Nvidia продолжает выпускать новые процессоры, обеспечивающие более высокую производительность. Последним продуктом Nvidia стал графический процессор Blackwell, который сейчас используется в Together AI.
Пракаш сказал, что чипы Nvidia Blackwell стоят примерно на 25% дороже, чем чипы предыдущего поколения, но обеспечивают в 2 раза более высокую производительность. Платформа GB 200 с чипами Blackwell особенно хорошо подходит для обучения и логического вывода моделей «смесь экспертов» (MoE), которые обучаются на нескольких серверах, подключенных к InfiniBand. Он отметил, что ожидается, что чипы Blackwell также обеспечат более высокую производительность для логического вывода более крупных моделей по сравнению с более мелкими моделями.
«Например, мы обслуживаем модель DeepSeek-R1 со скоростью 85 токенов в секунду, а Azure — со скоростью 7 токенов в секунду, — сказал Пракаш. — Разница в производительности и стоимости, которые мы можем предоставить нашим клиентам, довольно существенная».
Источник
Источник новости: habr.com