Cerebras Systems выпустила Cerebras Inference, «самый быстрый движок для выводов ИИ». Способное обрабатывать 1800 токенов в секунду для модели Llama3.1* 8B и 450 токенов в секунду для модели Llama3*.1 70B, Cerebras Inference в 20 раз превосходит решения на базе GPU от NVIDIA.
Этот прорыв сопровождается конкурентоспособной ценовой моделью, начиная всего с 10 центов за миллион токенов. Отличительной особенностью Cerebras Inference является способность поддерживать точность без ущерба для скорости, пишут СМИ. В отличие от других решений, которые могут снижать точность для ускорения обработки, Cerebras остается в 16-битной области на протяжении всего цикла вычислений, обеспечивая разработчикам быстрое получение высококачественных результатов.
Cerebras Inference, доступный в версиях Free, Developer и Enterprise, способен произвести прорыв в разработке ИИ, особенно в приложениях, требующих обработки в реальном времени или в больших объемах, отмечает Geeky-Gadgets.
*принадлежит Meta, которая признана в РФ экстремистской и запрещена
Источник новости: www.ferra.ru