AMD продемонстрировала преимущества чиплетной компоновки ещё в первом поколении EPYC (Naples), однако в следующих поколениях гомогенная компоновка сменилась гетерогенной, с отдельным чиплетом, отвечающим за все нужды, связанные с операциями ввода-вывода.
Так было в Rome, так было в Milan, Genoa и Bergamo, а теперь пришло время посмотреть, что же изменилось в анонсированных буквально на днях EPYC 9005 (Turin), и хватит ли этого, чтобы ещё раз закрепить звание лидера в области создания многоядерных серверных решений.
Источник: AMD
В первую очередь, это, конечно же, пришествие в серию EPYC пятого поколения вычислительной архитектуры Zen, некоторое время назад уже дебютировавшей в процессорах AMD Ryzen потребительского класса. Как известно, в Zen 5 AMD неплохо поработала над увеличением эффективности — показатель IPC (число исполняемых за такт инструкций) вырос примерно на 17 %. За этим кроется довольно серьёзные изменения в микроархитектуре, носящие, впрочем, эволюционный характер.
Ядро Zen 5 получило новый блок предсказания ветвлений, унифицированный планировщик, блоки выборки и декодирования инструкций были разделены на два кластера для оптимизации SMT (любопытно сравнить с подходом Intel, движущейся к отказу от SMT вообще).
Ускорен и увеличен в объёме кеш первого уровня, подросли в объёме таблицы трансляции адресов, да и сама вычислительная часть расширилась с ростом числа поддерживаемых инструкций. В частности, в Zen 5 реализована полноценная поддержка AVX-512 с честной 512-бит обработкой данных.
Но вернёмся именно к новым EPYC 9005. Первенство Intel Xeon 6 (Granite Rapids и Sierra Forest) по количеству ядер продлилось крайне недолго: AMD вновь вернула себе лидерство, руководствуясь простой формулой: 50 % прироста в числе ядер + на 25 % увеличенный теплопакет + переход к архитектуре Zen 5/5c при сохранении совместимости с существующей аппаратной экосистемой.
Как и EPYC предыдущего поколения (Genoa и Bergamo) новые процессоры Turin используют разъём SP5 (LGA-6096), рассчитанный на 12-канальную подсистему памяти и 128 линий PCI Express 5.0. В случае двухпроцессорной компоновки системной платы часть из последних задействуется для межпроцессорной коммуникации.
Интересно, что на этот раз отдельное имя для высокоплотного варианта процессора не используется: версии EPYC 9005 действительно имеют разную компоновку CCD-чиплетов с ядрами Zen 5 и Zen 5c, а также разные идентификаторы модели (00-0Fh и 10h-1Fh соответственно), но кодовое имя у них одно, хотя встречается и вариант Turin Dense.
Опубликованные ранее сведения о 16 восьмиядерных чиплетах для классической версии и 12 шестнадцатиядерных чиплетах для высокоплотного варианта Turin подтвердились. Чиплеты действительно сгруппированы по четыре и три блока (квадранта) соответственно.
Сами чиплеты переведены на техпроцессы TSMC 4 и 3 нм, что и позволило добиться очередного по счёту прироста в числе ядер. По этому показателю высокоплотная версия Turin даже преодолела 128-ядерный барьер, что для x86-процессора происходит впервые.
Внутренняя структура CCX имеет существенные различия: по сути, CCX определяется единым разделом кеша L3, а он у вариантов на базе Zen 5 и Zen 5c одинаковый и имеет ёмкость 32 Мбайт. Иными словами, каждое ядро Zen5c потенциально располагает меньшим количеством кеша (2 Мбайт против 4), но такова плата за более плотную компоновку.
Блок IOD (I/O Die) по-прежнему один, хотя и серьёзно переработанный для поддержки большего числа подключаемых CCD. Подключение осуществляется посредством GMI3-линков, которые работают на частоте 1,8 ГГц. Они вдвое быстрее GMI2, использовавшихся в серии процессоров EPYC 7003.
Имеется два режима работы: GMI3-Narrow для конфигураций с 12 и 16 чиплетами и GMI3-Wide для процессоров, у которых активно только 8 CCD (пропускная способность от CCD к IOD возрастает вдвое). Четыре xGMI-линка могут использоваться для обмена данными с вторым процессором в случае 2S-конфигурации. Новый IOD обеспечивает гибкие возможности в плане бифуркации линий SerDes и назначения им специфических функций.
Модуль IOD обеспечивает Turin поддержку 128 линий PCI Express 5.0 в однопроцессорном режиме и до 160 — в двухпроцессорном. Четыре x16-линка могут использоваться как 64 линии CXL 2.0 (Type 1, 2, 3) и до 32 IO-линий могут быть сконфигурированы в качестве интерфейсов SATA. Последний интерфейс сегодня стремительно теряет актуальность, и его поддержка реализована AMD в основном для внутриплатформенной совместимости.
AMD также постаралась максимизировать эффективность работы подсистем ввода-вывода в принципе, понимая всю важность каналов, связывающих CPU со всевозможными ускорителями в эпоху ИИ и LLM. EPYC 9005 в полной мере поддерживают DMA и P2P-соединения, при этом не забыта и безопасность: реализовано шифрование PCIe-трафика в рамках SEV-SNP.
Также интерес представляет технология SDCI, позволяющая I/O-устройствам писать данные прямо в кеш-иерархию, минуя DRAM, что снижает нагрузку на подсистему памяти и потенциально увеличивает эффективность обмена данными между процессором и ускорителями.
В процессорах Xeon 6 Intel серьёзно обошла AMD по параметрам подсистем памяти: даже Sierra Forest получили поддержку DDR5-6400 (5200 при 2DPC), а Granite Rapids даже поддерживают новомодные MRDIMM DDR5-8800, приём при 12 каналах. Процессоры AMD EPYC были ограничены поддержкой DDR5-4800 в лучшем случае, пусть и при аналогичном количестве каналов.
Но пришествие Turin восстанавливает практический паритет: каналов памяти по-прежнему 12, однако платформа теперь поддерживает DDR5-6000, а для некоторых кастомных платформ AMD собирается разрешить поддержку DDR5-6400. Экзотику вроде MCRDIMM/MRDIMM в текущем виде EPYC 9005 не поддерживает. Вместо этого компания планирует наделить будущие EPYC поддержкой нового стандарта памяти, как только он будет ратифицирован JEDEC.
Впрочем, и без учёта возросших частот, которые сами по себе могли бы обеспечить 20–25 % прирост пропускной способности, нововведений хватает: новые контроллеры памяти существенно эффективнее старых, они поддерживают модули с коррекцией ошибок x80 и x72, умеют выполнять повторную попытку чтения UECC, поддерживают 3DS RDIMM суммарным объёмом 6 Тбайт на процессор.
Пиковая пропускная способность при этом может достигать 576 Гбайт/с, что выше показателя NVIDIA Grace (72 ядра, 500 Гбайт/с), но ниже, нежели у сдвоенного Grace Superchip (144 ядра, 1 Тбайт/с). Латентность при этом отнюдь не выросла и составляет примерно те же 110 нс, что и у контроллеров памяти в EPYC предыдущего поколения, работающих с модулями DDR5-4800.
Как уже упоминалось, в EPYC 9005 полностью реализована поддержка CXL 2.0 для всех трёх существующих типов устройств, но упор сделан на работу с устройствами Type 3 в качестве расширителей RAM. Предусмотрены поддержка уровней иерархии, возможность комбинирования CXL-устройств в общий NUMA-домен, функции QoS с разделением полос пропускания для DRAM и CXL-памяти и т.д. AMD постаралась обеспечить как можно более высокую производительность CXL при минимальных задержках, но насколько хорошо работают эти нововведения в сравнении с, к примеру, Xeon Granite Rapids, могут показать лишь тесты.
Если речь зашла о NUMA, нельзя не упомянуть, что EPYC 9005 могут работать в разных режимах в зависимости от значения NUMA Nodes Per Socket (NPS) в BIOS. Значение 0 в двухсокетной системе означает монолитную конфигурацию с одним доменом NUMA на всю систему. Память при этом работает в режиме чередования (interleaving) как единое адресное пространство. Оба процессора имеют равный доступ ко всей памяти и всем физически подключенным устройствам PCIe/CXL.
Значение 1 даёт два домена, 2 делит каждый процессор на два домена, а 4 представляет каждый «квадрант» процессора, как отдельный NUMA-домен, включающий 4 CCD у Zen 5 и по 3 CCD у Zen 5c. Выбор настройки зависит от сценария использования и конкретики используемого ПО.
Также следует отметить расширенный набор средств обеспечения надёжности и стабильности работы (RAS). К уже реализованным в предыдущем поколении EPYC добавилась удаленная обработка ошибок через выделенный канал (out of band error management) и автоматическая подмена сбойных ячеек DRAM на резервные рабочие. Список поддерживаемых возможностей RAS широк.
В отличие от Intel, AMD представила сразу 27 моделей EPYC 9005, с количеством ядер от 8 до 192. Следует сразу отметить, что новые техпроцессы и усовершенствованная архитектура очень позитивно сказалась на частотной формуле EPYC: если ранее частота в турборежиме редко переваливала за отметку 4 ГГц, то у EPYC 9005 это в порядке вещей.
Исключением являются лишь модели с ядрами Zen 5c, и даже для них этот параметр составляет 3,7 ГГц, чему сопутствуют и соответствующие теплопакеты в 320–500 Вт. Отметим, что в последнем случае требуется обновление подсистем питания платформы, так как прежде максимальный TDP не превышал 400 Вт. Новая серия EPYC по-прежнему включает модели, рассчитанные на работу в однопроцессорных системах, они имеют в названии суффикс «Р».
Суффиксом «F» отмечены модели с расширенной частотной формулой, в которой нижний номинал составляет не менее 3,1 ГГц, а верхний приближается к отметке 5 ГГц. Эти процессоры также располагают максимальным объёмом кеша L3. В совокупности с частотами это делает EPYC 9005F оптимальным выбором для сценариев с поядерным лицензированием ПО.
В сети уже опубликованы первые результаты тестов новых серверных процессоров AMD: к примеру, обозреватели с ресурса Phoronix успели провести тесты сразу трёх новинок — EPYC 9755 (128 ядер Zen 5, 4,1 ГГц турбо), 9575F (64 ядра Zen 5, 5 ГГц турбо) и 9965 (192 ядра Zen 5c, 3,7 ГГц турбо). Результаты впечатляют: сочетание Zen 5 в серверной ипостаси с повышенными тактовыми частотами сделали своё дело и новинки AMD плотно оккупировали первые места практически во всех номинациях.
Источник: Phoronix
Кое-где, например, в тесте OpenSSL, отлично проявил себя Turin Dense (EPYC 9965), ведь он опережает Intel Xeon 6700E не только по количеству ядер (192 против 144) и при этом сами ядра, несмотря на плотностную оптимизацию, являют собой полноценную реализацию Zen 5, а не упрощённую версию «большой архитектуры», как в случае с Е-ядрами Intel. По итогу три первых места принадлежат решениям AMD, и лишь на четвёртое место смогла претендовать система с Xeon 9680P, оснащённая высокоскоростными модулями MRDIMM-8800. Она же, оснащённая обычной DDR5-6400, смогла выступить лишь против одиночного EPYC 9755. Для двухпроцессорной системы с EPYC 9755 отрыв от аналогичной платформы на базе Granite Rapids составил в среднем 40 %.
Что касается высокоплотного EPYC 9965, то он на 45 % оторвался от двухпроцессорной сборки на базе флагманских EPYC 9754 Bergamo, несмотря на меньшее количество ядер (192 против 256). Сказалась новая архитектура и серьёзный прирост по тактовым частотам. С энергопотреблением у новинок AMD, конечно, дела обстоят не столь впечатляюще, как у Intel Xeon 6700E (Sierra Forest), но и ненамного хуже, а EPYC 9755, несмотря на монструозный теплопакет в 500 Вт, всё же оказался экономичнее Xeon 6980P. Его потолок энергопотребления действительно составил 500 Ватт, в то время, как флагман Intel в пике потреблял почти 550 Вт.
При этом карта Intel бита даже там, где «синие» всегда были непобедимы — теперь и у AMD есть полноценная поддержка AVX-512, равно как и 192-ядерный ответ 144-ядерному Xeon 6700E. Капиталовложения для перевода инфраструктуры с EPYC четвёртого поколения на пятое при этом могут быть относительно невелики. В большинстве случаев задача ограничивается прошивкой нового BIOS и заменой самих процессоров. Производители серверного оборудования встретили новинки AMD с энтузиазмом и, по всей видимости, доля компании в серверных процессорах будет расти и далее.
Из козырей, остающихся на руках Intel на данный момент, можно назвать лишь наличие специфических блоков ускорителей, а также поддержку расширений матричной математики AMX. В некоторых сценариях, например, в серверах для телекоммуникаций это поможет Xeon удержать позиции, но в большинстве других нагрузок EPYC Turin смотрятся намного выигрышнее. Тем более что стоят новые серверные процессоры AMD заметно дешевле решений Intel.
Источник новости: servernews.ru