категории | RSS

Суперкомпьютер Frontier на базе AMD сталкивается с трудностями, ни дня без проблем в работе

Когда AMD объявила, что поставит самый быстрый в мире суперкомпьютер Frontier, компания также взяла на себя масштабную задачу по созданию машины, способной производить один ExaFLOP с общей устойчивой способностью выполнять вычислительные задачи. Хотя система, наконец, запущена и работает, заставить машину такого размера работать должным образом непросто. В мире высокопроизводительных вычислений поставка аппаратного обеспечения — это только часть работы центра высокопроизводительных вычислений. В интервью InsideHPC Джастин Уитт, директор программы Oak Ridge Leadership Computing Facility (OLCF), рассказал, каково это — управлять самым быстрым в мире суперкомпьютером и с какими проблемами он сталкивается.

Система Frontier оснащена 64-ядерными процессорами AMD EPYC 7A53s «Trento» с тактовой частотой 2,0 ГГц и графическими процессорами Instinct MI250X. Все это соединяет 64-портовый коммутатор HPE (Cray) Slingshot, который отвечает за отправку данных в вычислительные блейды и из них. Недавнее интервью указывает на довольно интересный вывод: именно графические процессоры AMD Instinct MI250X и интерконнект Slingshot вызывают проблемы с оборудованием для Frontier. «В основном это проблемы масштаба вычислений в сочетании с разнообразием приложений, поэтому проблемы, с которыми мы сталкиваемся, в основном связаны с выполнением очень, очень больших заданий с использованием всей системы и обеспечением согласованной работы всего оборудования для таких задач», — говорит Джастин Уитт. В дополнение к ограничениям масштаба «Проблемы охватывают множество различных категорий, графические процессоры — лишь одна из них. Многие проблемы сосредоточены вокруг них, но это не большинство проблем, которые мы наблюдаем», — сказал он. «Это довольно хороший разброс среди общих проблем в отказе деталей, которые и составляют их большую часть. Я не думаю, что на данный момент у нас есть много беспокойства по поводу продуктов AMD. Мы имеем дело с большим количеством оборудования еще в стадии раннего периода работы, такое всегда случается с новыми решениями такого масштаба, которые и ранее мы разворачивали и вводили в работу, так что в этом нет ничего необычного».

Многие приложения не могут работать на оборудовании такого масштаба, поэтому необходима уникальная настройка. Из-за аппаратных проблем, возникающих с графическими процессорами AMD, немного сложнее своевременно установить и настроить операционную среду. Тем не менее, команда из Ок-Риджа уверена в своих силах и без проблем соблюдает сроки. Для получения дополнительной информации прочитайте интервью InsideHPC.



Источник новости: ru.gecid.com

DimonVideo
2022-10-10T20:57:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика