Выпуск #4/2025
А. Медведев
АЛЬТЕРНАТИВЫ ВСТРАИВАЕМЫХ КОМПЬЮТЕРНЫХ МОДУЛЕЙ NVIDIA JETSON
АЛЬТЕРНАТИВЫ ВСТРАИВАЕМЫХ КОМПЬЮТЕРНЫХ МОДУЛЕЙ NVIDIA JETSON
Просмотры: 854
DOI: 10.22184/1992-4178.2025.245.4.112.115
В статье рассмотрены различные архитектуры центральных процессоров для ускорения работы с искусственными нейронными сетями. Приведены примеры отечественных вычислительных модулей и блоков для систем машинного зрения, видеоаналитики и оптической навигации.
В статье рассмотрены различные архитектуры центральных процессоров для ускорения работы с искусственными нейронными сетями. Приведены примеры отечественных вычислительных модулей и блоков для систем машинного зрения, видеоаналитики и оптической навигации.
Теги: artificial intelligence systems embedded computing module gpu npu nvidia jetson tpu tpu processor architectures video analytics видеоаналитика встраиваемый компьютерный модуль процессорные архитектуры gpu системы искусственного интеллекта
Альтернативы встраиваемых компьютерных модулей Nvidia Jetson
А. Медведев, к. т. н.
Одной из популярных встраиваемых аппаратных платформ для систем искусственного интеллекта, машинного зрения и видеоаналитики являются компьютерные модули семейства Jetson от Nvidia. Сегодня, на фоне ограничения доступа к этой платформе российские разработчики встраиваемых систем заинтересованы в альтернативных решениях в этой области. В статье рассмотрены различные архитектуры центральных процессоров для ускорения работы с искусственными нейронными сетями. Приведены примеры отечественных вычислительных модулей и блоков для решения задач машинного зрения, видеоаналитики и оптической навигации.
ВВЕДЕНИЕ
Семейство Jetson представляет собой линейку встраиваемых компьютерных модулей (System on Module, SOM) на базе графических процессоров, специально разработанных для работы с системами искусственного интеллекта (AI) и граничных вычислений (Edge Computing) [1]. Популярность Nvidia Jetson обусловлена высокой производительностью, простотой использования и широкой поддержкой сообществом разработчиков.
Однако сегодня, в условиях санкций и ограничения доступа к технологиям Nvidia, разработчики вынуждены рассматривать альтернативные решения, в частности платформы на базе ARM-процессоров с интегрированными ядрами-ускорителями таких производителей, как RockChip, Hailo, НТЦ «Модуль», LinQ. Каждое из этих решений имеет свои сильные и слабые стороны, поэтому выбор зависит от требований к системе по производительности, стоимости, энергопотреблению, а также от специфики применения.
Процессорные архитектуры GPU, NPU и TPU
Современные процессоры являются системами на кристалле (System on Chip, SoC), объединяющими в одном чипе несколько модулей вычислительной системы. Это позволяет уменьшить количество компонентов в системе и сделать устройство более компактным и экономичным с точки зрения энергопотребления.
Процессоры, предназначенные для работы с нейронными сетями и обработки видео, помимо ядер центрального процессора (Central Processing Unit, CPU), содержат специализированные процессорные ядра для ускорения задач, связанных с графическими вычислениями
и искусственным интеллектом. К таким ядрам относятся GPU, TPU и NPU – три типа процессоров, наиболее пригодных для выполнения различных задач в области параллельных вычислений, связанных с обработкой графической информации, ускорением нейронных сетей и машинным обучением.
GPU (Graphics Processing Unit), или графический процессор, изначально разрабатывался для ускорения обработки графики и рендеринга изображений. Архитектура GPU включает в себя множество ядер, способных выполнять параллельные вычисления, что делает графический процессор идеальными для параллельной обработки больших массивов данных – то, что необходимо в графических приложениях и в задачах машинного обучения.
GPU могут содержать тысячи простых ядер, что позволяет им обрабатывать большие потоки данных. Высокий уровень параллелизма позволяет GPU эффективно справляться с задачами, которые могут быть разбиты на множество мелких подзадач, таких как обработка изображений и обучение нейронных сетей.
TPU (Tensor Processing Unit), или тензорный процессор, – еще один тип специализированного процессора, разработанный для выполнения операций, характерных для глубокого обучения. TPU используют систолические массивы, обеспечивая быстрое исполнение высокопроизводительных операций умножения и сложения матриц. Это делает TPU подходящим для обучения и инференса нейронных сетей.
NPU (Neural Processing Unit), или нейронный процессор, – тип специализированного аппаратного ускорителя, который предназначен для выполнения математических операций, необходимых для задач машинного обучения, особенно тех, которые связаны с нейронными сетями. NPU ускоряют обучение и инференс моделей глубокого обучения, имитируя нейронные сети человеческого мозга. Они оптимизированы для математических операций, таких как умножение матриц и свертки, а также для задач, связанных с искусственными нейронными сетями. Обычно NPU используются совместно с центральным процессором для обеспечения дополнительной вычислительной мощности для задач машинного обучения.
В отличие от универсального GPU, процессоры NPU и TPU ориентированы для ускорения рабочих нагрузок машинного обучения и искусственного интеллекта.
И NPU, и TPU оптимизированы для математических операций, которые обычно используются в машинном обучении, таких как умножение матриц и свертки, их можно использовать для ускорения широкого спектра задач машинного обучения.
По назначению и принципу работы NPU и TPU очень схожи. Довольно часто термин NPU используется в качестве общего названия для акселераторов нейросетей.
Между NPU и TPU есть и некоторые различия. Одно из ключевых различий заключается в том, что TPU специально разработаны для ускорения задач глубокого обучения, в то время как NPU могут ускорять более широкий спектр алгоритмов машинного обучения.
С точки зрения производительности NPU и TPU являются высокоэффективными и мощными ресурсами для машинного обучения. Однако TPU могут иметь небольшое преимущество в производительности благодаря особой оптимизации для задач глубокого обучения. Также стоит отметить, что конкретная производительность NPU или TPU зависит от их конструкции
и реализации.
В качестве примера на рис. 1 представлена структура ядра TPU одного из китайских производителей. Как показано на рис. 1, процессор оснащен несколькими вычислительными ядрами (NPU). TPU основан на архитектуре SIMD (Single Instruction Multiple Data), то есть в любой момент времени все NPU выполняют одну и ту же вычислительную инструкцию, но каждый NPU работает с разными данными.
TPU исключительно хорошо справляется с крупномасштабными задачами глубокого обучения, особенно в сценариях, требующих высокой пропускной способности
и малой задержки.
Процессоры китайского производителя RockChip
Процессоры ряда китайских производителей могут рассматриваться как альтернатива Nvidia Jetson для разработок в области машинного обучения и компьютерного зрения. Одними из самых популярных в России являются процессоры компании RockChip.
RockChip предлагает широкий спектр микросхем для встраиваемых систем, мобильных устройств и IoT-решений. Некоторые чипы, такие как RK3568, RK3588, оснащены NPU для ускорения задач искусственного интеллекта. В частности, модули на базе процессора RK3588 можно рассматривать как интересную альтернативу платформе Nvidia Jetson, особенно для задач, связанных с искусственным интеллектом и обработкой данных.
Компьютерные модули НПК «Атроник»
В настоящее время на российском рынке достаточно широко представлены встраиваемые вычислители на базе процессоров китайских процессоров. В качестве примера рассмотрим компьютерные модули производства НПК «Атроник».
В номенклатуре НПК «Атроник» представлены встраиваемые компьютерные модули на процессорах с архитектурой ARM со встроенными ядрами NPU/TPU.
В табл. 1 приведены характеристики модулей форм-фактора SMARC этого производителя [2].
Такие функциональные особенности модулей НПК «Атроник», как дублированные коммуникационные интерфейсы (Ethernet, CAN, RS-232/422/485), память с системой коррекции ошибок (ECC), работа в промышленном температурном диапазоне, позволяют создавать на их основе надежные компьютерные системы.
На рис. 2 приведено сравнение производительности компьютерных модулей НПК «Атроник» с аналогом от Nvidia при работе с популярными наборами нейронных сетей.
На базе представленных компьютерных модулей могут быть созданы ИИ-видеосерверы, интеллектуальные камеры видеонаблюдения, системы интеллектуального мониторинга и управления беспилотным транспортом и другие высокопроизводительные вычислительные устройства с низким энергопотреблением. Благодаря поддержке режима сопроцессора модули можно использовать в качестве внешнего нейросетевого ускорителя.
Примеры вычислительных устройств
на базе модулей НПК «Атроник»
Рассмотрим примеры вычислительных устройств, разработанных на базе компьютерных модулей НПК «Атроник».
Бортовая доверенная вычислительная платформа (рис. 3) представляет собой встраиваемый вычислитель для создания устройств видеоаналитики на основе нейронных сетей с возможностью криптографической защиты данных и каналов управления. Платформа может использоваться в качестве интеллектуального вычислителя в различных робототехнических комплектах и беспилотных транспортных средствах, а также на стационарных наземных объектах в составе интеллектуальных видеокамер и многопоточных AI Edge-серверов.
Бортовой вычислитель системы оптической навигации (СОН) (рис. 4) позволяет определять местоположение и ориентацию беспилотного воздушного судна (БВС) в пространстве, автономно осуществлять навигацию, выполнять задачи в условиях отсутствия сигналов ГНСС с помощью методов визуальной одометрии. Бортовой компьютер обрабатывает входящую информацию (снимки с камеры и данные 10-осевого мультидатчика) и выдает координаты расположения БВС на местности.
Интеллектуальная IP-видеокамера со встроенными средствами кибербезопасности и аналитикой (рис. 5) обеспечивает установку и исполнение нейронных сетей пользователя, непрерывное кибербезопасное видеонаблюдение за объектом в условиях размещения видеокамеры вне защищенного периметра, а также в условиях нестабильного энергообеспечения и неустойчивых каналов связи. Фиксирует юридически значимые события и добавляет электронную цифровую подпись.
Заключение
Выбор компьютерного модуля для систем искусственного интеллекта, машинного зрения и видеоаналитики зависит от конкретных требований проекта, включая производительность, возможность поддержки фреймворков, энергопотребление и бюджет. Если нужна высокая производительность для решения сложных AI-задач, Nvidia Jetson может быть наилучшим выбором. Если же необходимы доступные решения для менее требовательных приложений, RK3588 и другие китайские процессоры могут стать хорошими альтернативами.
ЛИТЕРАТУРА
NVIDIA Celebrates 1 Million Jetson Developers Worldwide at GTC // https://blogs.nvidia.com/blog/million-jetson-developers-gtc/.
Медведев А.В. Обзор отечественных компьютерных модулей формата SMARC // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2023. № 10. С. 88–94.
А. Медведев, к. т. н.
Одной из популярных встраиваемых аппаратных платформ для систем искусственного интеллекта, машинного зрения и видеоаналитики являются компьютерные модули семейства Jetson от Nvidia. Сегодня, на фоне ограничения доступа к этой платформе российские разработчики встраиваемых систем заинтересованы в альтернативных решениях в этой области. В статье рассмотрены различные архитектуры центральных процессоров для ускорения работы с искусственными нейронными сетями. Приведены примеры отечественных вычислительных модулей и блоков для решения задач машинного зрения, видеоаналитики и оптической навигации.
ВВЕДЕНИЕ
Семейство Jetson представляет собой линейку встраиваемых компьютерных модулей (System on Module, SOM) на базе графических процессоров, специально разработанных для работы с системами искусственного интеллекта (AI) и граничных вычислений (Edge Computing) [1]. Популярность Nvidia Jetson обусловлена высокой производительностью, простотой использования и широкой поддержкой сообществом разработчиков.
Однако сегодня, в условиях санкций и ограничения доступа к технологиям Nvidia, разработчики вынуждены рассматривать альтернативные решения, в частности платформы на базе ARM-процессоров с интегрированными ядрами-ускорителями таких производителей, как RockChip, Hailo, НТЦ «Модуль», LinQ. Каждое из этих решений имеет свои сильные и слабые стороны, поэтому выбор зависит от требований к системе по производительности, стоимости, энергопотреблению, а также от специфики применения.
Процессорные архитектуры GPU, NPU и TPU
Современные процессоры являются системами на кристалле (System on Chip, SoC), объединяющими в одном чипе несколько модулей вычислительной системы. Это позволяет уменьшить количество компонентов в системе и сделать устройство более компактным и экономичным с точки зрения энергопотребления.
Процессоры, предназначенные для работы с нейронными сетями и обработки видео, помимо ядер центрального процессора (Central Processing Unit, CPU), содержат специализированные процессорные ядра для ускорения задач, связанных с графическими вычислениями
и искусственным интеллектом. К таким ядрам относятся GPU, TPU и NPU – три типа процессоров, наиболее пригодных для выполнения различных задач в области параллельных вычислений, связанных с обработкой графической информации, ускорением нейронных сетей и машинным обучением.
GPU (Graphics Processing Unit), или графический процессор, изначально разрабатывался для ускорения обработки графики и рендеринга изображений. Архитектура GPU включает в себя множество ядер, способных выполнять параллельные вычисления, что делает графический процессор идеальными для параллельной обработки больших массивов данных – то, что необходимо в графических приложениях и в задачах машинного обучения.
GPU могут содержать тысячи простых ядер, что позволяет им обрабатывать большие потоки данных. Высокий уровень параллелизма позволяет GPU эффективно справляться с задачами, которые могут быть разбиты на множество мелких подзадач, таких как обработка изображений и обучение нейронных сетей.
TPU (Tensor Processing Unit), или тензорный процессор, – еще один тип специализированного процессора, разработанный для выполнения операций, характерных для глубокого обучения. TPU используют систолические массивы, обеспечивая быстрое исполнение высокопроизводительных операций умножения и сложения матриц. Это делает TPU подходящим для обучения и инференса нейронных сетей.
NPU (Neural Processing Unit), или нейронный процессор, – тип специализированного аппаратного ускорителя, который предназначен для выполнения математических операций, необходимых для задач машинного обучения, особенно тех, которые связаны с нейронными сетями. NPU ускоряют обучение и инференс моделей глубокого обучения, имитируя нейронные сети человеческого мозга. Они оптимизированы для математических операций, таких как умножение матриц и свертки, а также для задач, связанных с искусственными нейронными сетями. Обычно NPU используются совместно с центральным процессором для обеспечения дополнительной вычислительной мощности для задач машинного обучения.
В отличие от универсального GPU, процессоры NPU и TPU ориентированы для ускорения рабочих нагрузок машинного обучения и искусственного интеллекта.
И NPU, и TPU оптимизированы для математических операций, которые обычно используются в машинном обучении, таких как умножение матриц и свертки, их можно использовать для ускорения широкого спектра задач машинного обучения.
По назначению и принципу работы NPU и TPU очень схожи. Довольно часто термин NPU используется в качестве общего названия для акселераторов нейросетей.
Между NPU и TPU есть и некоторые различия. Одно из ключевых различий заключается в том, что TPU специально разработаны для ускорения задач глубокого обучения, в то время как NPU могут ускорять более широкий спектр алгоритмов машинного обучения.
С точки зрения производительности NPU и TPU являются высокоэффективными и мощными ресурсами для машинного обучения. Однако TPU могут иметь небольшое преимущество в производительности благодаря особой оптимизации для задач глубокого обучения. Также стоит отметить, что конкретная производительность NPU или TPU зависит от их конструкции
и реализации.
В качестве примера на рис. 1 представлена структура ядра TPU одного из китайских производителей. Как показано на рис. 1, процессор оснащен несколькими вычислительными ядрами (NPU). TPU основан на архитектуре SIMD (Single Instruction Multiple Data), то есть в любой момент времени все NPU выполняют одну и ту же вычислительную инструкцию, но каждый NPU работает с разными данными.
TPU исключительно хорошо справляется с крупномасштабными задачами глубокого обучения, особенно в сценариях, требующих высокой пропускной способности
и малой задержки.
Процессоры китайского производителя RockChip
Процессоры ряда китайских производителей могут рассматриваться как альтернатива Nvidia Jetson для разработок в области машинного обучения и компьютерного зрения. Одними из самых популярных в России являются процессоры компании RockChip.
RockChip предлагает широкий спектр микросхем для встраиваемых систем, мобильных устройств и IoT-решений. Некоторые чипы, такие как RK3568, RK3588, оснащены NPU для ускорения задач искусственного интеллекта. В частности, модули на базе процессора RK3588 можно рассматривать как интересную альтернативу платформе Nvidia Jetson, особенно для задач, связанных с искусственным интеллектом и обработкой данных.
Компьютерные модули НПК «Атроник»
В настоящее время на российском рынке достаточно широко представлены встраиваемые вычислители на базе процессоров китайских процессоров. В качестве примера рассмотрим компьютерные модули производства НПК «Атроник».
В номенклатуре НПК «Атроник» представлены встраиваемые компьютерные модули на процессорах с архитектурой ARM со встроенными ядрами NPU/TPU.
В табл. 1 приведены характеристики модулей форм-фактора SMARC этого производителя [2].
Такие функциональные особенности модулей НПК «Атроник», как дублированные коммуникационные интерфейсы (Ethernet, CAN, RS-232/422/485), память с системой коррекции ошибок (ECC), работа в промышленном температурном диапазоне, позволяют создавать на их основе надежные компьютерные системы.
На рис. 2 приведено сравнение производительности компьютерных модулей НПК «Атроник» с аналогом от Nvidia при работе с популярными наборами нейронных сетей.
На базе представленных компьютерных модулей могут быть созданы ИИ-видеосерверы, интеллектуальные камеры видеонаблюдения, системы интеллектуального мониторинга и управления беспилотным транспортом и другие высокопроизводительные вычислительные устройства с низким энергопотреблением. Благодаря поддержке режима сопроцессора модули можно использовать в качестве внешнего нейросетевого ускорителя.
Примеры вычислительных устройств
на базе модулей НПК «Атроник»
Рассмотрим примеры вычислительных устройств, разработанных на базе компьютерных модулей НПК «Атроник».
Бортовая доверенная вычислительная платформа (рис. 3) представляет собой встраиваемый вычислитель для создания устройств видеоаналитики на основе нейронных сетей с возможностью криптографической защиты данных и каналов управления. Платформа может использоваться в качестве интеллектуального вычислителя в различных робототехнических комплектах и беспилотных транспортных средствах, а также на стационарных наземных объектах в составе интеллектуальных видеокамер и многопоточных AI Edge-серверов.
Бортовой вычислитель системы оптической навигации (СОН) (рис. 4) позволяет определять местоположение и ориентацию беспилотного воздушного судна (БВС) в пространстве, автономно осуществлять навигацию, выполнять задачи в условиях отсутствия сигналов ГНСС с помощью методов визуальной одометрии. Бортовой компьютер обрабатывает входящую информацию (снимки с камеры и данные 10-осевого мультидатчика) и выдает координаты расположения БВС на местности.
Интеллектуальная IP-видеокамера со встроенными средствами кибербезопасности и аналитикой (рис. 5) обеспечивает установку и исполнение нейронных сетей пользователя, непрерывное кибербезопасное видеонаблюдение за объектом в условиях размещения видеокамеры вне защищенного периметра, а также в условиях нестабильного энергообеспечения и неустойчивых каналов связи. Фиксирует юридически значимые события и добавляет электронную цифровую подпись.
Заключение
Выбор компьютерного модуля для систем искусственного интеллекта, машинного зрения и видеоаналитики зависит от конкретных требований проекта, включая производительность, возможность поддержки фреймворков, энергопотребление и бюджет. Если нужна высокая производительность для решения сложных AI-задач, Nvidia Jetson может быть наилучшим выбором. Если же необходимы доступные решения для менее требовательных приложений, RK3588 и другие китайские процессоры могут стать хорошими альтернативами.
ЛИТЕРАТУРА
NVIDIA Celebrates 1 Million Jetson Developers Worldwide at GTC // https://blogs.nvidia.com/blog/million-jetson-developers-gtc/.
Медведев А.В. Обзор отечественных компьютерных модулей формата SMARC // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2023. № 10. С. 88–94.
Отзывы читателей
eng




