Генеральный директор компании Cerebras Эндрю Фельдман стоит среди упакованных частей Condor Galaxy 1
«Генеративный ИИ съедает мир» — так начинает свой рассказ о последнем достижении компании Андрю Фельдман, генеральный директор компании Cerebras, которая производит компьютеры с ИИ в Силиконовой долине.
ИИ-суперкомпьютер способный выполнять 2 миллиарда миллиардов операций в секунду (2 экзафлопса) получил название Condor Galaxy 1. И это только начало, количество операций должно удвоиться в размерах в течение 12 недель. В начале 2024 года к компании присоединятся еще две системы вдвое большего размера. Компания планирует продолжать добавлять установки Condor Galaxy, пока не будет создана сеть из девяти суперкомпьютеров общей производительностью 36 эксафлопс.
Если большие языковые модели и другие генеративные ИИ "пожирают" мир, то план Cerebras состоит в том, чтобы помочь им "переварить" его. Cerebras в этом не одиноки. Другие производители компьютеров, ориентированных на ИИ, строят массивные системы либо на базе собственных специализированных процессоров, либо на базе новейшего графического процессора Nvidia-H100. Хотя пока трудно судить о размерах и возможностях большинства таких систем, Фельдман утверждает, что Condor Galaxy 1 уже относится к числу крупнейших.
Система Condor Galaxy-1 была собрана и запущена в эксплуатацию всего за десять дней и состоит из 32 компьютеров Cerebras CS-2, а в дальнейшем планируется расширить ее до 64. Следующие две системы, которые будут построены в Остине (штат Техас) и Эшвилле (штат Северная Каролина), также будут иметь по 64 компьютера CS-2.
Сердцем каждого CS-2 является Waferscale Engine-2 — процессор, ориентированный на ИИ, с 2,6 трлн. транзисторов и 850 тыс. ядер ИИ, изготовленный из цельной кремниевой пластины. Чип настолько велик, что масштабы памяти, пропускной способности, вычислительных ресурсов и прочего в новых суперкомпьютерах быстро становятся просто смешными, как показано на следующем графике.Если эти цифры не показались вам достаточно ошеломляющими, то вот еще одна: В Condor Galaxy насчитывается не менее 166 триллионов транзисторов
Одним из главных преимуществ Cerebras при создании больших суперкомпьютеров для ИИ — это возможность простого масштабирования ресурсов. Например, сеть с 40 млрд. параметров может быть обучена примерно за то же время, что и сеть с 1 млрд. параметров, если выделить для нее в 40 раз больше аппаратных ресурсов.
Важно отметить, что для такого масштабирования не требуется дополнительных строк кода. Демонстрация линейного масштабирования исторически была очень сложной задачей, поскольку большие нейронные сети трудно разделить на части, чтобы они работали эффективно. «Мы же линейно масштабируем от 1 до 32 [CS-2] одним нажатием клавиши» — говорит он.
Суперкомпьютеры серии Condor Galaxy принадлежат компании G42 из Абу-Даби, холдингу, в состав которого входят девять предприятий, которые работают в области ИИ, в том числе G42 Cloud, один из крупнейших поставщиков облачных вычислений на Ближнем Востоке. Однако Cerebras будет эксплуатировать суперкомпьютеры и сможет арендовать ресурсы, которые G42 не использует для внутренних работ.
По словам Фельдмана, спрос на обучение больших нейронных сетей резко возрос и число компаний, занимающихся обучением нейросетевых моделей с 50 млрд. и более параметров, выросло с 2 в 2021 году до более чем 100 в этом году.
Очевидно, что Cerebras — не единственная компания, ориентированная на предприятия, которым требуется обучение очень больших нейронных сетей. Свои предложения есть у таких крупных игроков, как Amazon, Google, Meta и Microsoft.
Вычислительные кластеры, построенные на базе графических процессоров Nvidia, доминируют в этом бизнесе, но некоторые из этих компаний разработали свой собственный кремний для ИИ, например, серия TPU от Google и Trainium от Amazon. Есть и стартапы-конкуренты Cerebras, создающие собственные ускорители и компьютеры для ИИ, в том числе Habana (сейчас входит в состав Intel), Graphcore и Samba Nova.
Компания Meta, например, построила свой AI Research SuperCluster на базе более чем 6 000 графических процессоров Nvidia A100. На втором этапе планируется довести производительность кластера до 5 эксафлопс.
Google построил систему, содержащую 4096 ускорителей TPU v4 общей производительностью 1,1 эксафлопс. Эта система справилась с нейронной сетью процессора естественного языка BERT, которая значительно меньше современных LLM, чуть более чем за 10 секунд. Google также использует Compute Engine A3, построенный на базе графических процессоров Nvidia H100 и настроенного блока обработки инфраструктуры, созданного совместно с Intel.
Облачный провайдер CoreWeave в сотрудничестве с Nvidia протестировал систему из 3584 графических процессоров H100, которая обучила эталонную модель большого языка GPT-3 всего за 10 минут. В 2024 году Graphcore планирует создать 10-экзафлопную систему Good Computer, состоящую из более чем 8000 процессоров Bow.
Источник новости: habr.com