На портале Phoronix, 5 января 2024 года, Майклом Ларабелем были опубликованы результаты тестов производительности набора инструкций AVX-512 на процессорах Intel Xeon 5-го поколения "Emerald Rapids"
На процессорах Intel Xeon 5-го поколения "Emerald Rapids", которые были выпущены в прошлом месяце, в дополнение к повышению энергоэффективности, поддержке более быстрой памяти DDR5 и многим другим усовершенствованиям, одним из более заметных улучшений в архитектуре, о которых говорила Intel, была улучшенная поддержка исполнения инструкций AVX-512. Далее были проведены несколько тестов с использованием флагманского Intel Xeon Platinum 8592 +, в которых рассматривались показатели производительности и тепловыделения / тактовой частоты / мощности при переключении поддержки AVX-512.Intel Xeon Platinum 8592+
Поскольку Emerald Rapids демонстрирует улучшения, связанные с поддержкой AVX-512, например, позволяющие процессорам достигать более высоких частот при рабочих нагрузках AVX-512, было проведено несколько тестов, которые помогут количественно оценить преимущества AVX-512 с этими новыми серверными процессорами Intel Xeon Scalable. Был выполнен набор тестов для различных рабочих нагрузок AVX-512 в режиме по умолчанию (включено), а затем тесты были выполнены с отключенной поддержкой AVX-512, чтобы увидеть влияние на исходную производительность, а также энергопотребление и энергоэффективность процессора, пиковые частоты процессора и тепловую нагрузку.
Конфигурация тестового стенда
Processor
2 x INTEL XEON PLATINUM 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard
Quanta Cloud S6Q-MB-MPS (3B05.TEL4P1 BIOS)
Chipset
Intel Device 1bce
Memory
1008GB
Disk
3201GB Micron_7450_MTFDKCB3T2TFS
Graphics
ASPEED
Network
2 x Intel X710 for 10GBASE-T
OS
Ubuntu 23.10
Kernel
6.5.0-13-generic (x86_64)
Compiler
13.2.0
File-System
ext4
Screen Resolution
1920x1080System LogsTransparent Huge Pages: madvise
--build=x86_64-linux-gnu --disable-vtable-verify --disable-werror --enable-bootstrap --enable-cet --enable-checking=release --enable-clocale=gnu --enable-default-pie --enable-gnu-unique-object --enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 --enable-libphobos-checking=release --enable-libstdcxx-debug --enable-libstdcxx-time=yes --enable-link-serialization=2 --enable-multiarch --enable-multilib --enable-nls --enable-objc-gc=auto --enable-offload-defaulted --enable-offload-targets=nvptx-none=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-gcn/usr --enable-plugin --enable-shared --enable-threads=posix --host=x86_64-linux-gnu --program-prefix=x86_64-linux-gnu- --target=x86_64-linux-gnu --with-abi=m64 --with-arch-32=i686 --with-build-config=bootstrap-lto-lean --with-default-libstdcxx-abi=new --with-gcc-major-version-only --with-multilib-list=m32,m64,mx32 --with-target-system-zlib=auto --with-tune=generic --without-cuda-driver -v
Scaling Governor: intel_pstate performance (EPP: performance) - CPU Microcode: 0x21000161
Python 3.11.6
gather_data_sampling: Not affected + itlb_multihit: Not affected + l1tf: Not affected + mds: Not affected + meltdown: Not affected + mmio_stale_dаta: Not affected + retbleed: Not affected + spec_rstack_overflow: Not affected + spec_store_bypass: Mitigation of SSB disabled via prctl + spectre_v1: Mitigation of usercopy/swapgs barriers and __user pointer sanitization + spectre_v2: Mitigation of Enhanced / Automatic IBRS IBPB: conditional RSB filling PBRSB-eIBRS: SW sequence + srbds: Not affected + tsx_async_abort: Not affected
Два процессора Intel Xeon Platinum 8592 + работали на эталонном сервере Intel Eagle Stream reference server при использовании ОС Ubuntu 23.10 с ядром Linux 6.5. Единственное изменение, внесенное в состояние системы во время тестирования, касалось работы с активной поддержкой AVX-512 или без нее.4
miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2
Performance GFInst/s, More Is Better
AVX-512 On
SE +/- 49.58, N = 15
4975.70
AVX-512 Off
SE +/- 24.22, N = 15
3112.01
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2
Billion Interactions/s, More Is Better
AVX-512 On
SE +/- 1.98, N = 15
199.03
AVX-512 Off
SE +/- 0.97, N = 15
124.48
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
Хотя выпуск AVX-512 начался много лет назад с большой критики по поводу мощности
и теплового воздействия, разница в производительности при использовании AVX-512
может оказаться весьма полезной, особенно на процессорах нового поколения.
Процессоры AMD Zen 4 также доказали свою полезность для AVX-512 благодаря
своему подходу.
miniBUDE 20210901
CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 36 / Avg: 54.58 / Max: 63
AVX-512 Off
Min: 35 / Avg: 55.67 / Max: 63
miniBUDE 20210901
CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2947.32 / Max: 3907
AVX-512 Off
Min: 800 / Avg: 2958.53 / Max: 3904
Когда AVX-512 использовался для бенчмарка miniBUDE HPC, Xeon Platinum 8592 + не
показал большой разницы в пиковой частоте процессора и температуре процессора...
Это намного лучше чем у Skylake, и с очень существенными отличиями показателей температуры.
miniBUDE 20210901
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 196.6 / Avg: 621.22 / Max: 756.81
AVX-512 Off
Min: 196.96 / Avg: 634.15 / Max: 758.15
miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2
Billion Interactions/s Per Watt, More Is Better
AVX-512 On
0.320
AVX-512 Off
0.196
Энергопотребление процессора в конфигурации 2P также не сильно отличалось при
использовании AVX512, что, в свою очередь, означало значительное повышение общей
энергоэффективности.
Embree 4.3
Binary: Pathtracer ISPC - Model: Crown
Frames Per Second, More Is Better
AVX-512 On
SE +/- 0.55, N = 7
151.47
MIN: 141.84 / MAX: 164.53
AVX-512 Off
SE +/- 0.23, N = 7
137.62
MIN: 125.91 / MAX: 154.51
Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon
Frames Per Second, More Is Better
AVX-512 On
SE +/- 0.38, N = 8
200.90
MIN: 189.72 / MAX: 217.48
AVX-512 Off
SE +/- 0.30, N = 7
181.83
MIN: 169.55 / MAX: 200.28
Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon Obj
Frames Per Second, More Is Better
AVX-512 On
SE +/- 0.52, N = 4
174.38
MIN: 165.02 / MAX: 188.21
AVX-512 Off
SE +/- 0.19, N = 4
159.48
MIN: 149.9 / MAX: 174.65
Embree 4.3
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 183.04 / Avg: 330.48 / Max: 754.13
AVX-512 Off
Min: 183.81 / Avg: 349.88 / Max: 758.31
Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon Obj
Frames Per Second Per Watt, More Is Better
AVX-512 On
0.528
AVX-512 Off
0.456
OpenVKL 2.0.0
Benchmark: vklBenchmarkCPU ISPC
Items / Sec, More Is Better
AVX-512 On
SE +/- 30.78, N = 3
3245
MIN: 250 / MAX: 36039
AVX-512 Off
SE +/- 6.36, N = 3
2365
MIN: 125 / MAX: 27301
Собственные программные пакеты Intel creator с программным пакетом oneAPI по прежнему пользуются спросом у AVX-512 и очень хорошо работают при использовании этого стиля программирования.
OpenVKL 2.0.0
CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 35 / Avg: 56.19 / Max: 61
AVX-512 Off
Min: 36 / Avg: 54.42 / Max: 60
OpenVKL 2.0.0
CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2934.37 / Max: 3913
AVX-512 Off
Min: 500 / Avg: 2909.25 / Max: 3917
OpenVKL 2.0.0
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 199.73 / Avg: 636.08 / Max: 754.77
AVX-512 Off
Min: 105.27 / Avg: 607.73 / Max: 758.79
OpenVKL 2.0.0
Benchmark: vklBenchmarkCPU ISPC
Items / Sec Per Watt, More Is Better
AVX-512 On
5.102
AVX-512 Off
3.892
При использовании AVX-512 по-прежнему не наблюдалось таких негативных
побочных эффектов, как у предыдущих поколений Intel Xeon.
OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/ao/real_time
Items Per Second, More Is Better
AVX-512 On
SE +/- 0.19, N = 3
42.65
AVX-512 Off
SE +/- 0.07, N = 3
23.41
OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/scivis/real_time
Items Per Second, More Is Better
AVX-512 On
SE +/- 0.07, N = 3
41.61
AVX-512 Off
SE +/- 0.16, N = 3
20.94
OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/pathtracer/real_time
Items Per Second, More Is Better
AVX-512 On
SE +/- 0.21, N = 4
17.04
AVX-512 Off
SE +/- 0.08, N = 15
10.57
AVX-512 с Emerald Rapids очень хорошо справлялся с множеством различных рабочих
нагрузок. Тепловое воздействие было небольшим, а увеличение энергопотребления процессора, как правило, было минимальным и имело смысл для повышения общей энергоэффективности.
Y-Cruncher 0.8.2
Pi Digits To Calculate: 5B
Seconds, Fewer Is Better
AVX-512 On
SE +/- 0.02, N = 3
27.06
AVX-512 Off
SE +/- 0.04, N = 3
33.68
Y-Cruncher 0.8.2
CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 37 / Avg: 48.55 / Max: 55
AVX-512 Off
Min: 37 / Avg: 49.71 / Max: 57
Y-Cruncher 0.8.2
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 144.38 / Avg: 545.54 / Max: 739.45
AVX-512 Off
Min: 206.72 / Avg: 566.95 / Max: 745.43
Y-Cruncher 0.8.2
CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2830.68 / Max: 3904
AVX-512 Off
Min: 800 / Avg: 2895.61 / Max: 3907
AVX-512 на Emerald Rapids оказался очень полезеным для программы Y-Cruncher Pi.
oneDNN 3.3
Harness: Recurrent Neural Network Inference - Data Type: bf16bf16bf16 - Engine: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 31.97, N = 15
1331.74
MIN: 775.81
AVX-512 Off
SE +/- 54.32, N = 15
2341.14
MIN: 1256.55
1. (CXX) g++ options: -O3 -march=native -fopenmp -msse4.1 -fPIC -pie -ldl -lpthread
OSPRay Studio 0.13Camera: 1 - Resolution: 4K - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 1.20, N = 3
749
AVX-512 Off
SE +/- 2.03, N = 3
893
OSPRay Studio 0.13
Camera: 3 - Resolution: 4K - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 0.88, N = 3
886
AVX-512 Off
SE +/- 6.17, N = 3
1055
OSPRay Studio 0.13
Camera: 1 - Resolution: 4K - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 74.75, N = 3
23825
AVX-512 Off
SE +/- 274.25, N = 3
33603
OSPRay Studio 0.13
Camera: 3 - Resolution: 4K - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 167.00, N = 3
32723
AVX-512 Off
SE +/- 82.99, N = 3
38787
OSPRay Studio 0.13
Camera: 3 - Resolution: 1080p - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 0.00, N = 3
223
AVX-512 Off
SE +/- 2.41, N = 15
279
OSPRay Studio 0.13
Camera: 3 - Resolution: 1080p - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU
ms, Fewer Is Better
AVX-512 On
SE +/- 43.03, N = 3
7146
AVX-512 Off
SE +/- 101.69, N = 3
8596
Таким образом, AVX-512 показал очень хорошие результаты работы с процессорами Intel 5th Gen Xeon Scalable "Emerald Rapids".
TensorFlow 2.12
Device: CPU - Batch Size: 16 - Model: ResNet-50
images/sec, More Is Better
AVX-512 On
SE +/- 0.41, N = 3
49.26
AVX-512 On
SE +/- 0.41, N = 3
39.06
TensorFlow 2.12
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 170.32 / Avg: 398.6 / Max: 450.75
AVX-512 Off
Min: 206.9 / Avg: 413.92 / Max: 462.77
TensorFlow 2.12
Device: CPU - Batch Size: 16 - Model: ResNet-50
images/sec Per Watt, More Is Better
AVX-512 On
0.124
AVX-512 Off
0.094
TensorFlow 2.12
Device: CPU - Batch Size: 64 - Model: ResNet-50
images/sec, More Is Better
AVX-512 On
SE +/- 0.16, N = 3
97.85
AVX-512 Off
SE +/- 0.58, N = 3
66.08
TensorFlow 2.12
CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 207.18 / Avg: 476.86 / Max: 531.76
AVX-512 Off
Min: 206.82 / Avg: 480.23 / Max: 511.44
TensorFlow 2.12
Device: CPU - Batch Size: 64 - Model: ResNet-50
images/sec Per Watt, More Is Better
AVX-512 On
0.205
AVX-512 Off
0.138
В то время как AVX-512 изначально вызывал много критики по поводу энергопотребления и тепловых характеристик, новейшие серверные процессоры Intel (и AMD) с AVX-512 продолжают демонстрировать очень значительные достижения и без этих ранних болевых точек.
OpenVINO 2023.2.dev
Model: Face Detection FP16 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 0.04, N = 3
-isystem -std=c++11 -fPIC
-fvisibility=hidden -mavx2 -mfma -MD -MT -MF
236.14
AVX-512 Off
SE +/- 0.05, N = 3
-pie
24.67
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev
Model: Person Detection FP16 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 0.82, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
747.49
AVX-512 Off
SE +/- 0.31, N = 3
-pie
238.22
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev
Model: Person Detection FP32 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 1.03, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
747.77
AVX-512 Off
SE +/- 0.09, N = 3
-pie
237.77
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Vehicle Detection FP16 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 1.59, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
4765.95
AVX-512 Off
SE +/- 1.56, N = 3
-pie
2116.64
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 24.15, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
32234.04
AVX-512 Off
SE +/- 0.50, N = 3
2822.71
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev
Model: Road Segmentation ADAS FP16-INT8 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 2.91, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
2389.55
AVX-512 Off
SE +/- 0.40, N = 3
-pie
1882.97
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16-INT8 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 80.54, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
49132.99
AVX-512 Off
SE +/- 3.35, N = 3
-pie
9439.92
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev
Model: Age Gender Recognition Retail 0013 FP16-INT8 - Device: CPU
FPS, More Is Better
AVX-512 On
SE +/- 940.07, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
123447.74
AVX-512 Off
SE +/- 496.38, N = 3
-pie
101244.00
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
AVX-512 и AMX продолжают оказывать большое влияние на инструментарий
искусственного интеллекта OpenVINO от Intel.
CPU Peak Freq (Highest CPU Core Frequency) Monitor
Phoronix Test Suite System Monitoring
Megahertz
AVX-512 On
Min: 800 / Avg: 2954.57 / Max: 3913
AVX-512 Off
Min: 500 / Avg: 3017.93 / Max: 3917
Если посмотреть на максимальную частоту процессора, достигаемую при постоянной загрузке в ходе 68 сравнительных тестов включения / выключения AVX-512, результаты в целом были довольно схожими. При использовании AVX-512 максимальная частота всех ядер Xeon Platinum 8592 +, как правило, составляла 2,95 ГГц по сравнению с 3,01 ГГц, когда
AVX-512 был отключен. Даже при использовании AVX-512 во всех этих тестах у процессора Xeon Platinum 5-го поколения не возникло проблем с достижением частоты turbo 3,9 ГГц.
CPU Temperature Monitor
Phoronix Test Suite System Monitoring
Celsius
AVX-512 On
Min: 30 / Avg: 54 / Max: 64
AVX-512 Off
Min: 29 / Avg: 53.19 / Max: 66
Разница в температуре ядра процессора между запуском AVX-512 и при его отключении была минимальной... Разница всего в градусе или около того, что намного лучше, чем у Intel AVX-512 предыдущих поколений.
CPU Power Consumption Monitor
Phoronix Test Suite System Monitoring
Watts
AVX-512 On
Min: 99.6 / Avg: 589.71 / Max: 894.8
AVX-512 Off
Min: 103.63 / Avg: 583.08 / Max: 772.16
Энергопотребление Xeon Platinum 8592 + с двумя процессорами в среднем было лишь немного выше при использовании AVX-512. Опять же, приятно видеть, что, в свою очередь, обеспечивает значительное повышение энергоэффективности при использовании AVX-512.
Geometric Mean Of All Test Results
Result Composite - Intel 5th Gen Xeon AVX-512 Comparison
Geometric Mean, More Is Better
AVX-512 On
31.37
AVX-512 Off
15.66
Выводы
Полученные при тестировании результаты не сильно отличаются от предыдущих процессоров Intel Xeon Sapphire Rapids, но в любом случае приятно видеть, что они помогают количественно оценить преимущества AVX-512 в наши дни.
AVX-512 с Emerald Rapids обеспечивает значительное повышение производительности и не требует значительных затрат на электроэнергию / тепло по сравнению с гораздо более старыми серверами Intel.
Источник новости: habr.com