DeepX готовится расширить поддержку трансформеров в чипах следующего поколения
На конференции Embedded Vision Summit компания DeepX представила свои чипы первого поколения, разработанные для обработки ИИ на устройствах и автономной робототехники. Компания также намекнула на будущие разработки, направленные на поддержку моделей-трансформеров в следующем поколении оборудования, что обещает существенно улучшить возможности обработки данных на устройствах в реальном времени.
Чипы первого поколения: V1, M1 и H1
Чип V1, ранее известный как L1, представляет собой экономичное решение в формате системы на кристалле (SoC), разработанное с учётом требований к энергоэффективности и производительности для пограничных вычислений. Этот чип оснащён нейронным процессором (NPU) с производительностью 5 TOPS (триллионов операций в секунду), что позволяет ему эффективно выполнять задачи, связанные с искусственным интеллектом.
Четыре процессора архитектуры RISC-V, встроенные в V1, обеспечивают достаточную вычислительную мощность для решения вспомогательных задач и управления, а 12-мегапиксельный процессор сигналов изображения (ISP) позволяет обрабатывать визуальные данные с высокой скоростью. Чип изготовлен с использованием 28-нм технологического процесса Samsung, что указывает на его экономичность и надёжность в производстве, несмотря на сравнительно скромный техпроцесс.
Главное преимущество V1 — это его высокая энергоэффективность. Он способен выполнять задачи, такие как обработка изображений с использованием алгоритма YOLO v7, со скоростью 30 кадров в секунду при энергопотреблении всего 1-2 Вт. Это делает чип идеальным для устройств, работающих в реальном времени, таких как интеллектуальные камеры или пограничные устройства, где требуется баланс между производительностью и низким энергопотреблением. Применение V1 может быть особенно полезным в ситуациях, где автономность и минимальное энергопотребление критичны, например, в устройствах интернета вещей (IoT), которые работают от батарей.
Чип M1 — это более мощное решение, предназначенное для работы в паре с центральным процессором и выступающее в роли специализированного ускорителя для задач искусственного интеллекта. Его NPU обладает производительностью 25 TOPS, что значительно превышает возможности V1, и при этом M1 потребляет всего 5 Вт энергии.
В демонстрациях M1 показал свою способность выполнять сложные задачи, такие как оценка позы с использованием YOLO v5, на карте формата M.2, что делает его отличным выбором для систем, где требуются высокая точность и быстрая обработка визуальных данных.
Благодаря низкому энергопотреблению и компактным размерам M1 становится идеальным кандидатом для использования в системах безопасности, робототехнике, беспилотных устройствах, а также в камерах видеонаблюдения и промышленных компьютерах, где задачи распознавания лиц и других визуальных данных требуют эффективных ИИ-решений.
Наконец, чип H1, который находится на стадии прототипирования, представляет собой многочиповую PCIe-карту, состоящую из восьми ускорителей M1. Эта конфигурация была протестирована и показала впечатляющие результаты — возможность обрабатывать 62 канала YOLO v7 одновременно с одной карты.
Такой уровень производительности особенно важен для задач многозадачности в системах с высоким объёмом данных, таких как системы видеонаблюдения или промышленные комплексы с большим количеством датчиков. Однако в ходе тестов выяснилось, что основным ограничением карты стало узкое место в процессоре, которое снижает потенциальную производительность.
Ожидается, что в финальной версии карты будет применено решение с четырьмя чипами M1 на карте половинной длины, что позволит оптимизировать производительность и сделать H1 более универсальным и экономичным решением для различных задач ИИ.
Прорыв в технологии квантования
Одним из ключевых технологических достижений чипов DeepX является их передовая система квантования, которая позволяет переводить алгоритмы с энергоемких графических процессоров (GPU) на NPU компании без потери точности. Обычно при понижении точности моделей с FP32 до INT8 наблюдается снижение качества обработки, однако уникальные технологии DeepX не только сохраняют точность, но и в некоторых случаях даже повышают ее. В ходе тестирования было обнаружено, что этот подход помогает улучшить обобщение моделей, смягчая проблемы с переобучением.
Эта инновация, на полное развитие которой ушел целый год, включает в себя комплекс различных технологий, как в аппаратном, так и в программном обеспечении. Хотя компания пока не раскрывает все подробности, уже поданы 282 патентные заявки, и на сегодняшний день одобрено 60 патентов, связанных с этой методикой. Генеральный директор Локвон Ким уверенно утверждает, что чипы NPU от DeepX могут превосходить по точности даже графические процессоры, работающие с теми же моделями на INT8.
IP-стратегия и глобальное расширение
С момента выпуска первых образцов V1 в ноябре 2023 года, DeepX активно сотрудничает с более чем 100 клиентами в Европе, Северной Америке и Азии. Особое внимание уделяется лицензированию технологии NPU для автомобильных производителей, особенно в Европе и Японии. В связи с новыми требованиями Китая, согласно которым к 2027 году все автомобили должны быть оснащены отечественными чипами, растет спрос на технологию NPU от DeepX среди китайских автопроизводителей, которым пока недоступны такие решения.
Несмотря на активное продвижение лицензирования, основной бизнес-стратегией компании по-прежнему остаются прямые продажи чипов.
Следующее поколение чипов: поддержка моделей-трансформеров
На будущее DeepX нацелена на создание чипов, которые смогут поддерживать трансформерные модели, такие как большие языковые модели (LLM). Ожидается, что к концу следующего года компания представит чип, который будет поддерживать полную функциональность трансформеров, в отличие от текущей поддержки только кодеров. Разработка ориентирована на пограничные устройства, такие как мобильные устройства и встроенные системы, где потребление энергии играет ключевую роль.
По предварительным оценкам, новый чип на базе модуля M.2 сможет обрабатывать от 20 до 30 токенов в секунду при энергопотреблении менее 5 ватт, что делает его идеальным для низкоэнергетичных устройств. Это развитие осуществляется в сотрудничестве с LG, которая заинтересована в применении LLM на чипах DeepX для мобильных гаджетов, автомобилей и бытовой электроники. Эта тенденция отвечает растущему спросу на ИИ на устройствах, так как выгрузка данных в облачные центры обработки информации становится все более дорогостоящей и энергоемкой.
Тем не менее, до появления полноценного SoC с поддержкой LLM от DeepX может пройти от 3 до 5 лет из-за существующих ограничений в объеме памяти конечных устройств. Компания делает ставку на использование памяти LPDDR, которая является более экономичным и энергоэффективным вариантом по сравнению с HBM (память с высокой пропускной способностью), непригодной для мобильных устройств.
Чип V3: ответ на отзывы клиентов
Следующая кремниевая разработка компании, V3, представляет собой редизайн чипа L2, измененный на основе обратной связи от китайских и тайваньских клиентов. V3 будет оснащен двухъядерным NPU с производительностью 15 TOPS и четырехъядерным процессором Arm Cortex A52 с общим энергопотреблением менее 5 Вт. Он также будет оборудован 12-мегапиксельным ISP и DSP с производительностью 75 GFLOPS для поддержки задач SLAM (одновременная локализация и картографирование) и радарных приложений.
Одним из ключевых изменений в V3 является переход с процессоров RISC-V на процессоры Arm, что связано с запросами клиентов на улучшенную безопасность и поддержку операционной системы для роботов (ROS). V3 будет ориентирован на приложения, такие как системы камер видеонаблюдения, которые требуют высокой производительности и безопасности.
Несмотря на этот переход, DeepX продолжит предлагать чипы V1 на базе RISC-V и чипы V3 на базе Arm для того, чтобы удовлетворить разнообразные потребности клиентов.
Подписаться на почтовую рассылку / Авторам сотрудничество