Во время конференции Ignite 2023 Microsoft впервые объявила о разработке собственного чипа-ускорителя ИИ под названием Maia. Накануне на мероприятии Hot Chips 2024 компания поделилась спецификациями Maia 100.
Ранее в этом году во время конференции разработчиков Build Microsoft уже рассказала, что Maia 100 — один из крупнейших процессоров, созданных на 5-нм узле TSMC, и он разработан специально для крупномасштабных рабочих нагрузок ИИ, развёрнутых в Azure.
Характеристики Maia 100:
размер чипа — 820 мм2;
корпус — процесс TSMC N5 с технологией интерпозера COWOS-S;
HBM BW/Cap — 1,8 ТБ/с @ 64 ГБ HBM2E;
Peak Dense Tensor POPS — 6 бит: 3, 9 бит: 1,5, BF16: 0,8;
L1/L2 — 500 МБ;
Backend Network BW — 600 ГБ/с (12X400 ГБ);
Host BW (PCIe) = 32 ГБ/с PCIe Gen5X8;
требования к TDP — 700 Вт;
TDP — 500 Вт.
Система Microsoft Maia 100 вертикально интегрирована для оптимизации стоимости и производительности. Она также оснащена индивидуальными серверными платами со специально разработанными стойками и программным стеком для повышения производительности.
Архитектура SoC Maia 100:
высокоскоростной тензорный блок для обработки обучения и вывода с поддержкой широкого спектра типов данных. Он построен как блок 16xRx16;
векторный процессор представляет собой слабосвязанный суперскалярный движок, созданный с использованием архитектуры набора инструкций (ISA) для поддержки широкого спектра типов данных, включая FP32 и BF16;
Direct Memory Access (DMA) поддерживает различные схемы сегментирования тензоров;
аппаратные семафоры обеспечивают асинхронное программирование в системе Maia;
для улучшения использования данных и энергоэффективности большие временные области L1 и L2 управляются программным обеспечением;
Maia 100 использует межсоединение на основе Ethernet с пользовательским протоколом типа RoCE для сверхвысокой пропускной способности вычислений. Он поддерживает пропускную способность all-gather и scatter-reduced до 4800 Гбит/с и пропускную способность all-to-all до 1200 Гбит/с.
Что касается программного обеспечения, то комплект средств разработки программного обеспечения Maia (SDK) позволяет быстро переносить модели PyTorch и Triton в Maia. Maia SDK включает несколько компонентов для разработчиков, что позволяет им легко развёртывать свои модели в Azure OpenAI Services.
Разработчики могут выбрать одну из двух моделей программирования: использовать популярный язык программирования с открытым исходным кодом Triton для глубоких нейронных сетей (DNN), или API Maia, специфичную для Maia модель программирования, созданную для максимальной производительности. Кроме того, Maia имеет встроенную поддержку моделей PyTorch.
Пока неизвестно, откроет ли Microsoft ускорители Maia 100 для сторонних организаций, как это сделала Google со своими TPU и Amazon со своими чипами Trainium и Inferentia.
Источник новости: habr.com