AMD сокращает разрыв с Nvidia в бенчмарках MLPerf

05.10.2024

На недавних тестах MLPerf впервые появился топовый графический процессор AMD MI300X, что стало важным событием на рынке высокопроизводительных вычислений и искусственного интеллекта (ИИ). В течение длительного времени Nvidia удерживала лидирующие позиции благодаря своей передовой линейке ускорителей, таких как H100 и новейший H200.

Однако результаты тестирования AMD показывают, что компания активно сокращает разрыв в производительности, бросая вызов доминированию Nvidia. Это особенно важно на фоне растущего спроса на ИИ-вычисления и специализированные аппаратные решения для глубокого обучения.

AMD MI300X был спроектирован с учётом высоких требований к производительности и энергоэффективности, что позволяет ему конкурировать с лучшими решениями от Nvidia. Основные тесты показывают, что MI300X способен справляться с вычислительными задачами, требующими больших объёмов параллельных вычислений, таких как обучение нейронных сетей и работа с большими наборами данных.

Это делает его привлекательным выбором для компаний, стремящихся внедрить решения на базе ИИ в своих вычислительных кластерах. Особенно примечательно, что разрыв между производительностью MI300X и решениями Nvidia, такими как H100 и H200, становится всё менее значительным, что указывает на постепенное усиление позиций AMD в этом сегменте.

Среди других участников рынка, демонстрирующих высокие результаты в бенчмарках, стоит выделить стартап Untether, который привлёк внимание своим инновационным ускорителем SpeedAI. Этот ускоритель продемонстрировал впечатляющие показатели энергоэффективности в сравнении с решениями Nvidia, особенно при выполнении таких вычислительных задач, как ResNet-50, одна из наиболее популярных нейронных сетей для обработки изображений.

SpeedAI ориентирован на оптимизацию энергозатрат при сохранении высокой производительности, что делает его интересным вариантом для компаний, которые стремятся снизить эксплуатационные расходы, связанные с электричеством и охлаждением оборудования в центрах обработки данных.

В это время Google представила свою шестую версию Tensor Processing Unit (TPU) — Trillium, который также ориентирован на выполнение задач, связанных с искусственным интеллектом. TPU Trillium продолжает линейку специализированных чипов, разрабатываемых Google для повышения эффективности работы с ИИ, и предназначен для поддержки масштабных моделей, таких как языковые модели и системы, работающие с большими объёмами данных.

Чипы TPU находят своё основное применение в инфраструктуре Google, но их технические возможности также могут оказать влияние на весь рынок высокопроизводительных вычислений.

Intel также не осталась в стороне и представила свой грядущий процессор Granite Rapids, который разрабатывался специально для задач, связанных с искусственным интеллектом. Granite Rapids обещает высокую производительность при выполнении сложных вычислительных задач и оптимизирован для обработки многозадачных рабочих нагрузок.

Это решение от Intel может конкурировать с лидерами рынка, такими как Nvidia и AMD, предлагая производительные и энергоэффективные решения для облачных вычислений и центров обработки данных.

AMD MI300X выходит на арену

Дебют нового графического процессора MI300X для центров обработки данных от AMD оказался успешным: устройство показало впечатляющие результаты в однокристальных и 8-чиповых конфигурациях при выполнении вычислений с использованием модели Llama2-70B.

В серверном режиме один MI300X обработал 2520,27 токенов в секунду, а в автономном режиме производительность увеличилась до 3062,72 токенов в секунду. В многочиповых конфигурациях результаты были еще более внушительными: 21 028,20 токенов в секунду в серверном режиме и 23 514,80 в автономном. Эти показатели демонстрируют высокую масштабируемость системы.

Важно отметить, что производительность MI300X всего на 3-4 % уступает результатам Nvidia H100-80B для тех же задач. Однако по сравнению с более новой моделью H200-141GB от Nvidia, AMD отстает примерно на 30-40%. Тем не менее AMD позиционирует MI300X как прямого конкурента Nvidia H100 благодаря его впечатляющей конфигурации: 192 ГБ HBM памяти и пропускной способности 5,2 ТБ/с. Это позволяет MI300X обрабатывать целую модель Llama2-70B на одном чипе, что снижает сетевые накладные расходы и повышает общую эффективность работы.

Кроме того, AMD применяет собственную библиотеку Composite Kernel (CK) для оптимизации производительности, в том числе улучшает предварительное заполнение памяти и декодирование с использованием формата FP8.

Также были проведены оптимизации планировщика, что сократило время декодирования. В сочетании с процессорами нового поколения Epyc Turin, MI300X показал прирост производительности на 4,7 % в серверном режиме и на 2,5 % в автономном по сравнению с системами, использующими более ранние процессоры Genoa.

Nvidia представляет Blackwell

Новая линейка графических процессоров Nvidia, основанная на архитектуре Blackwell, также дебютировала с выпуском модели Blackwell B200. Этот графический процессор обладает в два раза большей вычислительной мощностью по сравнению с предыдущими моделями H100 и H200, а также оснащен 180 ГБ памяти.

Один B200 способен обрабатывать 10 755,60 токенов в секунду в серверном режиме для модели Llama2-70B, что примерно в четыре раза быстрее, чем H100. В автономном режиме этот показатель увеличивается до 11 264,40 токенов в секунду.

Впервые Nvidia использовала точность FP4, что позволило существенно повысить производительность без значительного влияния на точность вычислений, которая осталась на уровне 99,9 %. Важно отметить, что результаты Blackwell B200 были представлены в категории "предварительный просмотр", что означает, что их коммерческий выпуск ожидается в течение ближайших шести месяцев. Это подчеркивает будущую конкуренцию между MI300X от AMD и B200 от Nvidia.

Nvidia также добавила новую рабочую нагрузку под названием Mixtral-8x7B, представляющую собой "смесь экспертов". В этой нагрузке H200 показал прирост производительности на 11-12 % по сравнению с H100 при одинаковом потреблении мощности — 700 Вт. Это свидетельствует о том, что Nvidia продолжает активно оптимизировать свои решения на базе архитектуры Hopper, улучшая производительность графических процессоров.

SpeedAI240 от Untether: лидер по энергоэффективности

Ускоритель SpeedAI240 от стартапа Untether действительно привлёк внимание своей выдающейся энергоэффективностью, что делает его перспективным конкурентом на рынке решений для искусственного интеллекта (ИИ). Рассмотрим его характеристики и особенности более подробно.

SpeedAI240 выделяется на фоне традиционных решений, таких как ускорители от Nvidia, благодаря своей способности обрабатывать большие объёмы данных при относительно низком энергопотреблении. В серверной конфигурации, состоящей из шести карт форм-фактора Slim PCIe, каждая из которых потребляет всего 75 Вт, система продемонстрировала способность обрабатывать 309 752 вывода ResNet-50 в секунду. Это внушительный результат для системы с таким низким энергопотреблением. Более того, в автономном режиме, когда система работает независимо от внешнего управления, производительность ещё выше — до 334 462 выводов в секунду.

Для сравнения, Nvidia H100, которая является одним из наиболее производительных решений на рынке, обеспечивает более высокие абсолютные показатели производительности, однако за счёт значительно большего энергопотребления.

Преимущество SpeedAI240 заключается не только в том, что он способен показывать высокие результаты при сравнительно низких затратах энергии, но и в том, что эта энергоэффективность масштабируется в серверных решениях, что становится критически важным в современных центрах обработки данных (ЦОД), где потребление электроэнергии становится одним из ключевых факторов.

Хотя производительность системы Untether на основе SpeedAI240 примерно в два раза ниже, чем у восьми ускорителей Nvidia H100, её ключевое преимущество заключается в энергоэффективности. При выполнении задач, таких как обработка изображений через нейронную сеть ResNet-50, шесть ускорителей SpeedAI240 достигли показателя энергоэффективности в 314 запросов в секунду на ватт. Это существенно превосходит результаты Nvidia H100 (141 GB), который достигает около 110-120 запросов в секунду на ватт, что делает решение от Untether почти в три раза более эффективным.

Энергопотребление и тепловыделение — критические параметры для современных центров обработки данных, особенно в условиях растущего спроса на ИИ-вычисления. Низкое энергопотребление ускорителей SpeedAI240 открывает возможности для создания более экологичных и экономичных вычислительных систем, что актуально в свете требований к сокращению углеродного следа и повышению устойчивости инфраструктуры.

Системы на базе Nvidia H100, хотя и обеспечивают более высокие пиковые показатели производительности, требуют значительно большего энергопотребления, что увеличивает затраты на эксплуатацию таких систем в долгосрочной перспективе. Таким образом, SpeedAI240 может стать привлекательным выбором для компаний, которые ориентированы на достижение баланса между производительностью и энергоэффективностью.

Trillium от Google и Granite Rapids от Intel

Google представила свой новый TPUv6e под кодовым названием Trillium, который в три раза превосходит по производительности TPUv5e в аналогичных задачах. Например, Trillium способен выполнять 4,49 запросов StableDiffusion в секунду в серверном режиме, в то время как GH200 от Nvidia выполнял только 2,02 запроса.

Intel, в свою очередь, делает акцент на новом процессоре Granite Rapids, который показал 1,9-кратное повышение производительности по сравнению с предыдущими моделями Xeon. Хотя текущие модели ориентированы на небольшие задачи, такие как GPT-J, Intel явно направляет значительные усилия на улучшение производительности ИИ за счет новых типов данных и оптимизации архитектуры.

Последние результаты бенчмарков MLPerf демонстрируют, что рынок ИИ-аппаратуры стремительно развивается. AMD продолжает сокращать разрыв с Nvidia, а такие компании, как Untether, предлагают уникальные решения с упором на энергоэффективность. В то же время Nvidia продолжает инновации с новой архитектурой Blackwell, внедряя революционную точность FP4. Этот год станет особенно интересным для индустрии, поскольку на рынок выходят новые, мощные решения, и конкуренция между игроками становится все более острой.

Наши новости один раз в неделю на ваш емайл
Подписаться на почтовую рассылку / Авторам сотрудничество