Сегодня 08 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → hpc

Мощь 52 ускорителей NVIDIA H200 за 1/100 стоимости — Tachyum начнёт массово выпускать 192-ядерные чипы Prodigy в этом году

Компания Tachyum сообщила, что в этом году начнёт массовое производство универсального процессора Prodigy, сочетающего вычислительные и графические ядра, а также нейродвижок TPU. Производитель обещает, что новинка обеспечит выдающийся уровень производительности и сможет потягаться с самыми мощными ускорителями вычислений NVIDIA.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Разработчик заявляет, что её 192-ядерный чип, выполненный на основе 5-нм технологического процесса, обеспечивает в 4,5 раза более высокую производительность, чем любой другой процессор, предназначенный для вычислительных нагрузок в облачной среде. Кроме того, он до трёх раз быстрее любого GPU, предназначенного для высокопроизводительных вычислений и до шести раз энергетически эффективнее специализированных GPU для ИИ-задач.

Tachyum анонсировала чип Prodigy Universal Processor в 2022 году и пообещала с его помощью трансформировать узкоспециализированные ЦОДы в универсальные компьютерные центры, способные обеспечить необходимую вычислительную мощность и эффективность для различных ИИ-нагрузок. В декабре 2023 года компания выпустила видео, показывающее способность Prodigy эмулировать работу в x86-совместимых приложениях. Однако есть одно существенное «но»: несмотря на внушительные цифры производительности и заявления Tachyum, процессоры Prodigy существуют только на бумаге и в виде эмулируемой с помощью FPGA платформы с небольшим количеством ядер.

«Успехи, которых нам удалось достичь при корректировке нашего плана выпуска продуктов, привели нас к 2024 году, полному ожиданий, поскольку мы движемся к началу массового производства Prodigy и реализации многомиллиардного канала продаж. Мы с нетерпением ждём возможности выполнить наше обещание и обязательство по преобразованию обычных центров обработки данных в универсальные вычислительные центры в ближайшем будущем», — заявил генеральный директор и основатель Tachyum Радослав Данилак (Radoslav Danilak).

Поскольку в составе Prodigy Universal Processor используются функциональные компоненты, предназначенные для разных типов нагрузок, он может динамически переключаться между вычислительными кластерами, исключая необходимость в использовании разнонаправленного и дорогостоящего аппаратного обеспечения для отдельных типов ИИ-нагрузок в составе вычислительной системы. По крайней мере, так говорится в свежем пресс-релизе компании.

Там же заявляется, что всего один процессор Prodigy Universal Processor стоимостью $23 000 способен сравниться по производительности в задачах обучения ИИ с системой из 52 специализированных ускорителей NVIDIA H200, являющихся одними из лучших на рынке. Компания заявила, что стоимость такого количества графических процессоров в составе семи серверов Supermicro GPU составит 2 349 028 долларов или в 100 раз больше, чем одна система с Prodigy Universal Processor и 2 Тбайт оперативной памяти DDR5.

Tachyum также заявила, что уже планирует разработку более передового универсального процессора Prodigy 2 на базе 3-нм техпроцесса, который получит поддержку интерфейсов PCIe 6.0 и CXL, и будет оснащаться набортной высокопроизводительной памятью HBM3. Его планируется выпустить где-то в 2026 году.

Новая статья: AMD Instinct MI300: новый взгляд на ускорители

Данные берутся из публикации AMD Instinct MI300: новый взгляд на ускорители

Санкции США обрушат китайский спрос на ИИ-оборудование в полтора раза, но производители найдут лазейки

Очередной виток противостояния США и Китая обозначился 17 октября, когда американский Минторг обновил правила экспортного контроля — в них включили оборудование для производства полупроводников, чипы для высокопроизводительных вычислений, в основном для ИИ-систем; а список организаций под санкциями пополнили две новые компании. В результате китайский спрос на HPC-компоненты снизится до 3–4 % от мирового, уверены аналитики TrendForce.

 Источник изображения: nvidia.com

Источник изображения: nvidia.com

Существенным изменением оказалось формальное включение в список контролируемых товаров литографической системы ASML Twinscan NXT:1980Di, которая ранее находилась в серой зоне. ASML получила разрешение завершить намеченные поставки, поэтому последствия этой меры скажутся несколько позже. А вот сегмент HPC ожидает встряска, поскольку новый запрет коснулся ускорителей серий NVIDIA A800, H800 и L40S. Из-за этого китайские технологические гиганты ByteDance, Baidu, Alibaba и Tencent умерят свои аппетиты в отношении высокопроизводительных серверов с ускорителями NVIDIA — ранее Китай обеспечивал 5–6 % мирового спроса в этом сегменте, теперь же он снизится до 3–4 %. Китайские поставщики облачных услуг, как ожидается, в краткосрочной перспективе начнут запасаться импортными ИИ-ускорителями, а в среднесрочной и долгосрочной — ускорят разработку собственных.

Ещё одной тенденцией обещает стать новая стратегия производителей ИИ-чипов в лице NVIDIA и AMD — они расширят ассортимент решений и позволят клиентам адаптироваться к ограничениям, которые диктует геополитика. К примеру, это будет продукция с более скромными показателями производительности или более крупными кристаллами, что поможет соблюсти ограничения, не жертвуя охватом рынка.

Китайские техногиганты, кроме того, помогут местным академическим и исследовательским институтам рассмотреть возможность аренды ресурсов для обучения ИИ за пределами Китая, а его настройка и непосредственная работа будут организованы уже внутри страны. В этом проекте может принять участие и NVIDIA, которая начнёт активнее продвигать услуги по подписке на ИИ-серверы DGX Cloud. Это позволит привлечь клиентов не только из Китая, но и из других стран, где есть собственные геополитические проблемы.

Samsung запустит 4-нм техпроцесс SFX4 для высокопроизводительных CPU и GPU — +10 % к производительности и -23 % к энергопотреблению

На симпозиуме 2023 Symposium on VLSI Technology and Circuits компания Samsung расскажет о новом техпроцессе SF4X, который предназначен для выпуска CPU и GPU для высокопроизводительных вычислений (HPC). Технология, ранее известная как 4HPC (4 нм для высокопроизводительных вычислений), призвана не только обеспечить повышение тактовой частоты и энергоэффективности чипов, но также будет обладать потенциалом для дополнительного разгона.

 Источник изображений: Samsung

Источник изображений: Samsung

Новый техпроцесс Samsung SF4X обещает повышение на 10 % производительности и при этом на 23 % более низкий уровень энергопотребления. Правда, компания пока не уточнила, с каким именно техпроцессом приводит сравнение. Вероятно, речь идёт о стандартном 4-нм техпроцессе SF4 (4LPP). Добиться улучшения производительности и энергоэффективности удалось с помощью перепроектирования стоков и истоков транзисторов, а также благодаря дальнейшей оптимизацией конструкции транзистора и перепроектированием промежуточной схемы (MOL).

Благодаря новой MOL техпроцесс SF4X может похвастаться подтверждённым минимальным напряжением для CPU (Vmin) в 60 мВ, 10-процентным снижением колебаний тока в выключенном состоянии, гарантией работы при высоком напряжении (Vdd) более 1 В без снижения производительности и более эффективной работой с SRAM.

Предполагается, что техпроцесс SF4X будет конкурировать с N4P и N4X компании TSMC, чей запуск запланирован на 2024–2025 годы. Какой техпроцесс в конечном итоге обеспечит наилучшее сочетание производительности, мощности, плотности транзисторов, эффективности и стоимости, основываясь исключительно на заявлениях производителей, предугадать невозможно.

Компоненты для высокопроизводительных вычислений (CPU и GPU для дата-центров) требуют значительного количества энергии, рассчитаны на регулярную работу с большими нагрузками и могут значительно повышать свою тактовую частоту, если возрастает потребность в более высокой производительности. Одна из главных задач новых техпроцессов, применяемых при производстве этих компонентов, связана не только с повышением производительности, но также и с повышением их энергоэффективности. Поэтому снижение у SF4X энергопотребления на 23 % по сравнению с предшествующим техпроцессом создаёт потенциал к существенной экономии средств держателей ЦОД и одновременному снижению негативных воздействий на окружающую среду этими системами.

Примечательно, что SF4X — это первый передовой техпроцесс Samsung, разработанный специально для использования в сфере HPC. Если учесть, что высокопроизводительные вычисления, в частности, ИИ, сейчас пользуются повышенным спросом как со стороны признанных лидеров рынка полупроводников (AMD, IBM, Intel и NVIDIA), так и со стороны новичков, таких как Ampere или Graphcore, у Samsung Foundry есть все основания ожидать, что эта технология будет принята по крайней мере некоторыми из более 150 её клиентов.

В Китае представили ускоритель вычислений Biren BR100, который превосходит NVIDIA Ampere A100

Китайская компания Biren Technology представила графический процессор BR100, обеспечивающий производительность до 1024 Тфлопс в 16-битных операциях с плавающей точкой и до 2048 Тфлопс в 8-битных целочисленных операциях. Решение предназначено для использования в составе специализированных высокопроизводительных вычислительных систем (HPC).

 Источник изображений: Biren Technology

Источник изображений: Biren Technology

Графический процессор BR100 — это флагманское решение компании, использующее 7-нм техпроцесс производства и технологию 2,5D-упаковки CoWoS компании TSMC. Чип использует архитектуру BiLiren и имеет на борту 77 млрд транзисторов.

Решения на его основе могут предложить до 64 Гбайт высокоскоростной памяти HBM2e с максимальной пропускной способностью на уровне 2,3 Тбайт/с, а также 300 Мбайт выделенной кеш-памяти. Для GPGPU заявляется поддержка интерфейсов PCIe 5.0 и CXL.

Производительность BR100 выше, чем у NVIDIA Ampere A100, но примерно в 2,0–2,5 раз ниже, чем у решений на базе архитектуры NVIDIA Hopper. Максимальное превосходство над NVIDIA Ampere заявляется при работе с 32-битными числами с плавающей точкой — в этом случае BR100 может предложить производительность на уровне 256 Тфлопс против 19,5 Тфлопс у решения NVIDIA.

Помимо BR100 китайская компания представила также графический чип BR104. Он предлагает урезанные вдвое характеристики и примерно вдвое меньшую по сравнению с BR100 производительность, и может использоваться в составе карт расширения формата PCIe с показателем энергопотребления до 300 Вт.

Для своих продуктов Biren Technology также представила программную платформу BIRENSUPA. Она поддерживает различные популярные фреймворки для машинного обучения, например, PaddlePaddle от Baidu.

Tachyum раскрыла характеристики процессоров Prodigy: до 128 ядер, до 5,7 ГГц и TDP до 950 Вт

Словацкая компания Tachyum обнародовала технические характеристики своих процессоров семейства Prodigy, предназначенных для решения различных ресурсоёмких задач в сфере высокопроизводительных вычислений, искусственного интеллекта (ИИ) и пр.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Говорится о подготовке восьми чипов, которые объединяют от 32 до 128 проприетарных 64-битных ядер с архитектурой VLIW (см. таблицу ниже). Каждое из ядер содержит два 1024-битных векторных блока и один 4096-битный матричный блок. Размер кеша инструкций и данных составляет по 64 Кбайт в расчёте на ядро. Кроме того, есть 1 Мбайт кеша второго уровня (L2). Чипы могут применяться в составе двух- и четырёхпроцессорных систем.

Наиболее мощное изделие Prodigy T16128-AIX работает на частоте до 5,7 ГГц, а показатель TDP (максимальное значение рассеиваемой тепловой энергии) составляет 950 Вт. Реализованы 16 каналов памяти DDR5-7200; поддерживаются 64 линии PCIe 5.0. Максимально возможный объём ОЗУ равен 8 Тбайт.

 Источник изображения: Golem.de

Источник изображения: Golem.de

В семейство Prodigy также вошли модели с показателем TDP в 180, 300, 600 и 700 Вт. Они функционируют на частоте от 3,2 до 5,7 ГГц, поддерживают 32 или 64 линии PCIe 5.0.

Что касается быстродействия, то упомянутое изделие Prodigy T16128-AIX обеспечивает до 90 терафлопс (FP64) для высокопроизводительных вычислений и до 12 петафлопс (AI PetaFLOPS) для ИИ и обучения.


window-new
Soft
Hard
Тренды 🔥
BitLocker в составе Windows 11 24H2 будет включаться автоматически при установке или переустановке ОС даже у редакции Windows 11 Home 34 мин.
Еженедельный чарт Steam: Gray Zone Warfare обошла Counter-Strike 2, а Total War: Warhammer III заняла четыре строчки в топ-10 7 ч.
Смерть ей к лицу: критики вынесли вердикт релизной версии вампирского MMO-экшена V Rising 8 ч.
Owlcat раскрыла, когда выйдет «Танец Масок» — последнее дополнение к Pathfinder: Wrath of the Righteous 9 ч.
Симулятор космической больницы Galacticare отправит спасать галактику по одному пациенту за приём — новый трейлер и дата выхода 10 ч.
TikTok подал в суд на правительство США в попытке отменить закон о запрете приложения 11 ч.
Режиссёр Deathloop и Marvel’s Blade жёстко раскритиковал руководство Microsoft за закрытие Arkane Austin 12 ч.
API Google Fit будет закрыт в 2025 году — многие носимые устройства перестанут полноценно работать 12 ч.
Apple вновь отклонила игру для Vision Pro с реалистичным изображением оружия, но потом передумала 14 ч.
Microsoft закроет три студии Bethesda, включая разработчиков Hi-Fi Rush и Redfall 14 ч.