Perceive представляет второе поколение чипа, предназначенного для использования трансформеров в периферийных вычислениях

24.02.2024

Компания Perceive, специализирующаяся на искусственном интеллекте и вышедшая из Xperi, представила свой чип второго поколения, который обладает аппаратной поддержкой для трансформеров, включая большие языковые модели (LLMs) для периферийных вычислений. Этот чип, названный Ergo 2, был продемонстрирован на выставке CES 2023. Он подтвердил свою способность обрабатывать RoBERTa, трансформерную сеть с 110 миллионами параметров.

Ergo 2 сохраняет компактные размеры в форм-факторе 7 мм x 7 мм, такие же как и оригинальный чип Ergo, но при этом обеспечивает приблизительно четыре раза большую производительность. Это улучшение производительности позволяет периферийным устройствам выполнять вычисления с использованием трансформеров, которые включают более 100 миллионов параметров.

Чип способен обрабатывать видео с более высокой частотой кадров и выполнять одновременно несколько больших нейронных сетей. Например, Ergo 2 может достигать до 115 выводов в секунду для YoloV5-S, потребляя всего 75 мВт, чтобы обеспечить скорость 30 изображений в секунду при использовании YoloV5-S. Энергопотребление для разных приложений обычно остается ниже 100 мВт, с максимальным значением 200 мВт при необходимости.

Perceive — стартап по чипам искусственного интеллекта — вышедший из Xperi, представил второй чип, разработанный для поддержки трансформеров и больших языковых моделей (LLMs) на периферии. Компания продемонстрировала свой чип Ergo 2 на выставке CES 2023, показав завершение предложений с использованием RoBERTa, трансформерной сети с 110 миллионами параметров.

Ergo 2 поставляется в том же компактном корпусе 7 мм x 7 мм, что и оригинальный Ergo, но обеспечивает приблизительно четыре раза большую производительность. Это значительное увеличение производительности позволяет выполнять на периферии вывод для трансформеров с более чем 100 миллионами параметров, обрабатывать видео с более высокой частотой кадров или одновременно выполнять несколько больших нейронных сетей.

Например, Ergo 2 может достигать до 115 выводов в секунду для YoloV5-S, при этом энергопотребление составляет всего 75 мВт для вывода 30 изображений в секунду и максимум 200 мВт для типичных приложений.

Подход Perceive к ускорению нейронных сетей объединяет эксклюзивные методы сжатия моделей, уникальное математическое представление нейронных сетей и аппаратное ускорение. Стив Тейг, генеральный директор Perceive, подчеркнул важность их подхода, описав его как математически стратегию для понимания смысла вычислений при представлении нейронных сетей иным способом.

С их текущими методами сжатия Perceive достигает впечатляющих коэффициентов сжатия от 50 до 100 раз для моделей. Тейг подчеркнул, что процессы обучения и сжатия имеют схожие черты, так как оба процесса идентифицируют структуру данных и используют ее. Perceive фокусируется на сжатии активаций, которые занимают большую часть памяти большинства нейронных сетей. Активации могут быть сжаты до десяти раз их первоначального размера без ущерба точности, что является значительным улучшением по сравнению с типичными методами квантования.

Perceive также использует другие методы сжатия, такие как переупорядочивание частей вычислений вывода в пространстве и времени. Этот подход позволяет выполнить более крупные модели, заменяя пространство временем, используя скорость чипа для последовательных вычислений и достижения параллельной производительности.

Для Ergo 2 Perceive разработала метод сжатия моделей трансформера и добавила аппаратную поддержку для этих сжатых моделей. Преимущество компании заключается как в оптимизации рабочей нагрузки, так и в аппаратном ускорении, где программное обеспечение и математика играют ключевую роль в достижении целей по сжатию. Процесс сжатия Perceive включает три этапа: макро, микро и компиляция, с фокусом на выявлении возможностей сжатия, их уточнении и оптимизации памяти и энергопотребления.

На уровне SDK программное обеспечение Perceive переобучает модели Pytorch, чтобы обеспечить их совместимость с Ergo или Ergo 2. Кроме того, используется библиотека C для послепроцессинга на CPU чипа, и клиенты имеют доступ к библиотеке моделей, включающей около 20 моделей, на основе которых можно строить собственные.

Ergo 2 вводит архитектурные изменения, включая объединенное пространство памяти, что улучшает совместное использование памяти между подсистемами. Это объединенное пространство памяти позволяет чипу эффективно выделять память для различных задач во время вывода изображений, оптимизируя как использование памяти, так и производительность обработки.

Чип Ergo 2 от Perceive не только обеспечивает улучшенную производительность, но также расширяет свои возможности для поддержки видео более высокого разрешения, отвечая на потребности клиентов. Интерфейсы MIPI были ускорены, что позволяет Ergo 2 принимать разрешения от 4K до данных разрешением 12 или 16 мегапикселей. Эта универсальность расширяет возможности применения чипа на лэптопах, планшетах, дронах и в корпоративных сценариях, требующих обработки видео более высокого разрешения.

Оригинальный чип Ergo от Perceive останется доступным для приложений с жесткими ограничениями по питанию, в то время как Ergo 2 ориентирован на тех, кто нуждается в большей производительности при немного большей доступной мощности. Например, камера с батареей, нацеленная на двухлетнее время работы от батареи, скорее всего выберет Ergo, тогда как приложения, требующие супер-разрешения до 4K, могут выбрать Ergo 2.

Что касается эффективности энергопотребления, Ergo достигает 2727 изображений ResNet-50 в секунду на ватт, в то время как Ergo 2 выполняет 2465, что помещает их на порядок впереди конкурирующих периферийных чипов.

Будущие перспективы для трансформеров

Стив Тейг, генеральный директор Perceive, вызывает доминирующую тенденцию все более крупных трансформеров, подчеркивая важность математической сложности при определении размера сети. Он утверждает, что математический анализ показывает, что модели языка, охватывающие богатство синтаксиса английского языка, такие как GPT, должны измеряться в миллионах параметров, а не в миллиардах или триллионах.

Имея такое понимание, Perceive остается преданной сжатию трансформеров, чтобы обеспечить более крупные сети на периферии. Тейг признает, что потенциал для сжатия значительный, с будущими коэффициентами сжатия 1000 или даже 10 000 раз.

Тейг также подчеркивает уникальную сжимаемость трансформеров по сравнению с другими типами нейронных сетей. Он объясняет, что полагаться исключительно на умножение матриц и активации ReLU ограничивает способность эффективно выражать сложные концепции. Расширение языка, используемого для описания нейронных сетей, позволяет более эффективное сжатие.

В итоге Ergo 2 не только обеспечивает улучшенную производительность, но и поддерживает более высокое разрешение видео, расширяя сферу его применения. Подход Perceive к сжатию и математическая строгость позиционируют его на передовой в ускорении нейронных сетей, вызывая сомнения в том, что большие трансформеры всегда лучше и пропагандируя эффективные методы сжатия для создания более крупных сетей на периферии.

Наши новости один раз в неделю на ваш емайл
Подписаться на почтовую рассылку / Авторам сотрудничество

Perceive представляет второе поколение чипа, предназначенного для использования трансформеров в периферийных вычислениях

Будущие перспективы для трансформеров

Новости электроники

В архив даташитов сегодня добавили