IBM представляет процессоры для ускорения искусственного интеллекта в масштабах предприятия
На международной конференции Hot Chips 2024 компания IBM раскрыла новые архитектурные детали для своего новейшего процессора IBM Telum II и ускорителя IBM Spyre. Эти передовые разработки обеспечат значительное увеличение вычислительных мощностей будущих систем IBM Z, что позволит выполнять более сложные операции с искусственным интеллектом (ИИ). Интеграция традиционных моделей ИИ и крупномасштабных языковых моделей (LLM), с использованием ансамблевого подхода, откроет новый уровень производительности, обеспечивая поддержку самых современных технологий.
С увеличением внедрения генеративного ИИ и LLM в промышленных масштабах возрастает потребность в решениях, которые не только масштабируемы, но и безопасны и энергоэффективны. По данным исследования Morgan Stanley, опубликованного в августе, ежегодный рост потребностей генеративного ИИ в энергии достигает 75%, и к 2026 году он может приблизиться к уровню энергопотребления, сопоставимому с показателями Испании в 2022 году. Клиенты IBM все больше ориентируются на архитектуры, которые способны поддерживать масштабные фундаментальные модели и обеспечивать гибридные стратегии ИИ, оптимизированные под большие вычислительные нагрузки.
Telum II и Spyre: Основные инновации
Процессор IBM Telum II. Процессор Telum II, спроектированный для следующего поколения систем IBM Z, получил ряд значительных обновлений, среди которых увеличение объема памяти, на 40% больший кэш и интеграция ядра ускорителя ИИ. Важной особенностью стал новый блок обработки данных (DPU), который позволяет обрабатывать сложные протоколы ввода-вывода, что существенно повышает производительность корпоративных приложений ИИ, включая решения на базе LLM для сложных транзакционных процессов и операций с большими данными.
Блок ускорения ввода/вывода. Новый DPU внутри Telum II оптимизирует обработку данных, необходимых для сетевых операций и операций хранения данных, что делает систему более гибкой и улучшает эффективность работы ключевых компонентов, поддерживая бесперебойную работу высоконагруженных приложений.
Ускоритель IBM Spyre. Ускоритель IBM Spyre дополняет возможности Telum II, добавляя дополнительную вычислительную мощность для ИИ-задач. Вместе эти решения создают масштабируемую архитектуру, которая позволяет использовать ансамблевые методы моделирования ИИ, объединяя несколько моделей машинного и глубокого обучения для достижения лучших результатов.
На конференции Hot Chips было объявлено, что ускоритель Spyre будет доступен как опциональный PCIe-адаптер, который можно масштабировать для различных потребностей клиентов. Каждый чип установлен на PCIe-карте мощностью 75 Вт и предназначен для интеграции с мэйнфреймами IBM Z, что делает его идеальным решением для наиболее сложных ИИ-задач.
По словам одного из топ-менеджеров IBM, эти технологии соответствуют долгосрочной стратегии развития компании и отвечают растущим требованиям к производительности ИИ. После нескольких лет разработки оба чипа, Telum II и Spyre, вскоре станут основой новой платформы IBM Z, предоставляя корпоративным клиентам расширенные возможности для масштабирования генеративного ИИ и LLM в их повседневной деятельности.
Производство и развертывание
Производство новых процессоров будет осуществляться давним партнером IBM — Samsung Foundry, с использованием их передового 5-нм техпроцесса, известного своей энергоэффективностью. Эти технологии совместно будут поддерживать ИИ-приложения, которые улучшат бизнес-результаты за счет более точных прогнозов и ускорения анализа данных. Telum II и ускоритель Spyre станут краеугольными камнями для широкого спектра передовых приложений на базе ИИ.
Технические характеристики
Процессор Telum II. Telum II оснащен восемью ядрами, работающими на частоте 5,5 ГГц, и каждая из них имеет 36 МБ кэша L2, что дает в сумме 360 МБ кэша — на 40% больше, чем у предыдущего поколения процессоров. Дополнительно предусмотрен виртуальный кэш четвертого уровня объемом 2,88 ГБ на ящик, что увеличивает эффективность работы с данными в реальном времени, например, для обнаружения мошенничества в транзакциях. Общая вычислительная мощность процессора увеличилась в четыре раза по сравнению с его предшественником.
Ускоритель Spyre
Spyre поддерживает ИИ-модели с объемом памяти до 1 ТБ, что позволяет эффективно обрабатывать большие объёмы данных и сложные задачи машинного обучения. Эта система оптимизирует распределение рабочих нагрузок между восемью картами, находящимися в одном ящике ввода-вывода, обеспечивая максимальную производительность и балансировку ресурсов. Каждая из карт оснащена 32 высокопроизводительными вычислительными ядрами, которые могут выполнять параллельные вычисления, что особенно важно для ускорения задач, связанных с глубоким обучением и нейронными сетями.
Эти вычислительные ядра поддерживают работу с различными типами данных, такими как int4, int8, fp8 и fp16. Это означает, что Spyre может эффективно работать с различными форматами данных, обеспечивая гибкость в зависимости от задач. Например, форматы с более низкой точностью, такие как int4 и int8, часто используются в задачах, где требуется высокая пропускная способность и меньшие задержки, что особенно важно для приложений с низкой задержкой, таких как обработка потоков данных в реальном времени. В то же время fp8 и fp16 подходят для задач, требующих более высокой точности, например, при обучении сложных моделей.
Несмотря на такую мощную архитектуру, каждая карта потребляет всего 75 Вт, что делает Spyre весьма энергоэффективным решением для центров обработки данных. Низкое энергопотребление, в сочетании с высокой вычислительной мощностью и поддержкой различных типов данных, делает данный ускоритель оптимальным для приложений, требующих высокой производительности при минимальных затратах ресурсов. Это также снижает затраты на охлаждение и эксплуатацию оборудования, что особенно важно для больших дата-центров и корпоративных вычислительных сред, где энергия и эффективность имеют решающее значение.
Подписаться на почтовую рассылку / Авторам сотрудничество