NVIDIA GF100 – полное описание архитектуры / Видеокарты

Следует предупредить сразу – увы, этот материал нельзя назвать полноценным обзором. Пожалуй впервые мы рассказываем о новом графическом процессоре, не имея возможности провести его тестирование и проиллюстрировать теоретические данные результатами испытаний производительности. Впрочем, пока что подобной возможностью могут похвастаться лишь сотрудники компании NVIDIA – видеокарты, построенные на базе нового ГП, недоступны даже для тестовых лабораторий, не говоря уж о покупателях. В то же время, имея на руках подробную информацию об архитектуре нового флагманского ГП NVIDIA, мы, конечно же, не можем не поделиться ею с читателями. Поэтому в этом материале сведем воедино все, что мы знаем о графическом процессоре GF100, получившем уже прозвище «бумажный дракон». Для массового пользователя первым официальным анонсом видеокарты на базе новой архитектуры Fermi следует считать прошедшую недавно в Лас-Вегасе выставку CES 2010. Именно на ней компания впервые продемонстрировала широкой общественности работающий экземпляр GF100, на прошедшей именно там пресс-конференции президент и исполнительный директор NVIDIA Дженсон Хуанг (Jen-Hsun Huang) официально заявил, что начато серийное производство нового ГП, и рассказал о наиболее яркой, пожалуй, этого ГП возможности – технологии 3D Vision Surround. Кроме того, в дни выставки CES 2010 компания NVIDIA провела закрытую техническую конференцию, на которой журналистам была представлена подробная информация о внутренней архитектуре GF100 и возможность собственными глазами увидеть демонстрацию потенциала первых экземпляров видеокарты.

Однако по-прежнему многое о новом поколении видеокарт калифорнийской компании остается неизвестным. Прежде всего, неизвестным остается официальное название будущей видеокарты – пока что приходится оперировать кодовым именем ГП (GF100) и архитектуры, лежащей в его основе (Fermi). Нет никаких официальных данных и о грядущем модельном ряде. Наконец, ничего не известно о рекомендованной изготовителем розничной стоимости, а ведь это решающий для многих покупателей фактор. Нет данных и о дате официального начала продаж новых видеокарт. Хотя как раз ее угадать совсем несложно – учитывая официальное заявление мистера Дженсона Хуанга о начале серийного производства нового ГП, а так же тот факт, что от старта производства до появления готовых изделий в канале продаж проходит обычно 6-8 недель, стоит предположить, что на полки магазинов GF100 попадет в начале марта. Именно в это время проходит одна из крупнейших ИТ-выставок в мире – германская CeBit, на которой компания NVIDIA уже представляла свои новые продукты. В этом году CeBit стартует 2 марта – скорее всего, именно эта дата станет днем официального анонса и начала продаж GF100.

⇡#Ключевые особенности

На прошедшей в Лас-Вегасе закрытой технической конференции (она называлась GF100 Deep Dive) инженеры NVIDIA, руководившие проектом GF100, рассказали об основных целях, которые были поставлены перед ними при разработке нового ГП. В качестве четырех важнейших особенностей GF100 были названы:

реалистичность геометрии
улучшенное качество изображения
высокая производительность при дополнительных вычислениях
рекордная мощность ГП

Прежде, чем подробно рассказать, что разработчики понимают под каждым из этих пунктов, остановимся на общих характеристиках нового ГП.

Итак, GF100 – это:

512 CUDA-процессоров
16 геометрических блоков
4 блока растеризации
64 текстурных блока
48 модулей ROP
384-битный интерфейс памяти GDDR5

Стоит отдельно отметить, что GF100 станет первым графическим процессором NVIDIA старшего уровня, изготовленным по 40-нм проектным нормам. В то время как собственные производственные мощности AMD/ATI позволили уже достаточно давно освоить 40-нм техпроцесс, NVIDIA не торопилась с переходом на новую технологию, отрабатывая ее на моделях младшего уровня. Возможно, в этом вопросе калифорнийская компания стала заложником своего главного производственного партнера – компании TSMC и именно из-за проблем с освоением новых проектных норм так задержался выпуск нового флагмана NVIDIA. Так или иначе, но как уже сказано выше, к настоящему моменту все проблемы преодолены, и массовое производство GF100 уже началось. Хотя среди белых пятен в информации о GF100 есть и некоторые ключевые характеристики – тактовые частоты ядра и памяти нового ГП – все же попробуем сравнить новый ГП с текущими флагманами ATI (Cypress, RADEON HD 5870) и NVIDIA (GT200, GeForce GTX 285).

	NVIDIA GF100	NVIDIA GT200	ATI Cypress
Технология производства, нм	40	55	40
Кол-во вычислительных блоков	512	240	320 (1600)
Частота ядра, МГц	НД	648	850
Частота памяти, МГц	НД	2484	4800
Ширина шины памяти, бит	384	512	256
Тип памяти	GDDR5	GDDR3	GDDR5
DirectX	11	10	11

Даже краткое сравнение ключевых характеристик позволяет предположить, что инженеры NVIDIA действительно ориентировались на достижение рекордной мощности и у GF100 есть все шансы стать самым высокопроизводительным графическим решением для настольных компьютеров. По некоторым параметрам современный флагман NVIDIA (GT200) до сих пор был в роли догоняющего (отсутствие поддержки DirectX 11, более «грубый» техпроцесс, на 30% меньшее количество вычислительных блоков). С появлением GF100 компания NVIDIA делает большой шаг вперед – первое DX11-решение компании при аналогичном технологическом процессе имеет на 60% больший вычислительный потенциал (разумеется, в данном случае мы имеем в виду количество ядер CUDA – финальная же мощность определяется как частотами, так и особенностями архитектуры) и, соответственно, большую пропускную способность шины памяти. По сравнению же с GT200 количество вычислительных блоков выросло более чем в два раза! Что касается частотного потенциала GF100, то рискнем предположить, что с переходом на 40-нм проектные нормы, этот ГП быстро сравняется с решениями основного конкурента, ведь и на 55-нм техпроцессе инженерам NVIDIA удалось добиться неплохого потенциала.

⇡#Геометрия

Не лишним будет вспомнить, что именно компания NVIDIA вот уже более 10 лет назад реализовала обработку геометрических данных на аппаратном уровне в видеокарте. До 1999 года и первой модели под маркой GeForce геометрическая информация сцены обрабатывалась центральным процессором. Перенос блока T&L в графическое ядро позволил заметно ускорить обработку трехмерных сцен – в современных играх количество полигонов в сцене исчисляется уже миллионами, в то время как десять лет назад оно составляло в лучшем случае десятки тысяч. Тем не менее, по словам разработчиков NVIDIA, потенциал современных программируемых ГП по обработке геометрических данных используется недостаточно активно. Так, например, GeForce GTX 285 в 150 раз превосходит GeForce FX по скорости закрашивания и вывода пикселей, но лишь в 3 раза по мощности геометрической подсистемы. Это не только вынуждает разработчиков игр использовать более простые объекты, но и делает невозможным реалистичное отображение таких сложных объектов, как вода или, например, волосы. В GF100 внесено множество усовершенствований, направленных на обработку сложной графической информации и на массовое применение такой техники как тесселяция. В настоящее время все объекты и персонажи игр разрабатываются в программах трехмерного моделирования. Дизайнеры должны вручную создавать несколько моделей с разным уровнем деталей (LOD, Level Of Details), используя ту или иную в зависимости от удаленности объекта от переднего края игровой сцены. Учитывая, что каждый объект передается в ГП заново для каждого кадра, требуются достаточно сложные алгоритмы для использования модели с оптимальным в данный момент уровнем детализации. Причем существенное ограничение накладывает не только предельная производительность ГП при обработке геометрической информации, но и пропускная способность PCI Express.

Метод тесселяции, основанный на картах смещения, позволяет в значительной степени обойти эту проблему. Напомним, что карта смещения – это монохромная текстура, используемая не для закрашивания полигона, а для изменения его геометрических свойств. Яркость каждой точки на этой текстуре определяет отклонение (высоту) это точки над исходной поверхностью. В отличие от традиционных методов, когда объем имитируется обычными плоскими текстурами, тесселяция позволяет получить гораздо более сложные и естественно выглядящие объекты, правильно рассчитывать тени и т.п. Огромное преимущество карт смещения в том, что они позволяют создать универсальную модель, уровень детализации которой определяется лишь используемой картой смещения. Важно также, что по сути карта смещения – это обычная текстура, методы оптимизации и компрессии которой уже давно и успешно отработаны. В графическом процессоре GF100 реализованы средства аппаратной поддержки теселляции, причем инженеры NVIDIA уделили этому аспекту максимум внимания. Но, обо всем по порядку.

⇡#Graphic Processing Cluster

Графический процессор GF100 построен на базе масштабируемой архитектуры, в основе которой лежит применение объединенных в кластеры GPC (Graphic Processing Cluster – кластеры обработки графики) потоковых мультипроцессоров (SM, Streaming Multiprocessor). Каждый такой кластер содержит четыре мультипроцессора, а также все необходимые блоки для обработки геометрических данных и текстурирования. Фактически, каждый GPC представляет собой самостоятельный ГП, не имеющий лишь собственной подсистемы памяти. GF100 состоит из четырех таких кластеров, совместно использующих шесть контроллеров памяти, шесть модулей ROP (по 8 блоков ROP в каждом) и L2-кеш. Очевидно, что младшие (а со временем, возможно, и старшие) модели ГП будут получены изменением количества «кубиков» этого «конструктора».

⇡#PolyMorph Engine

Использование теселляции фундаментальным образом изменило распределение нагрузки внутри графического процессора и вынудило инженеров NVIDIA несколько изменить компоновку вычислительных блоков и ввести новый тип блока – PolyMorph Engine. Каждый графический кластер (GPC) оснащен четырьмя такими блоками – по одному на каждый мультипроцессор (SM). Каждый PolyMorph Engine выполняет пять стадий: выбор вершин, тесселяция, преобразование координат, преобразование атрибутов, потоковый вывод.

На первом этапе вершины выбираются из глобального буфера, после этого вершина отправляется в мультипроцессор, где ее координаты преобразуются в координаты сцены и определяется уровень тесселяции (аналог уровня детализации, LOD). После этого вершина передается на второй этап – тесселяцию. На этом этапе полигон разбивается на несколько новых, более мелких, по карте смещения определяются их координаты. Полученные новые вершины вновь обрабатываются в мультипроцессоре и передаются через потоковый вывод в память для дальнейшей обработки.

⇡#Raster Engine

После того, как геометрические данные обработаны в PolyMorph Engine они передаются для растеризации в Raster Engine. В этом блоке отфильтровываются невидимые примитивы (т.н. обратные поверхности), затем геометрические данные преобразуются в экранные точки, которые в свою очередь сортируются и фильтруются по Z-координате. Каждый кластер (GPC) оснащен одним блоком растеризации, обрабатывающим до 8 точек за такт, то есть суммарная производительность GF100 составляет 32 точки за такт – это в 8 раз больше, чем обеспечивал GT200.

⇡#Streaming Multiprocessor третьего поколения

Каждый мультипроцессор состоит из 32 вычислительных блоков CUDA – четырехкратное преимущество в сравнении с предыдущими архитектурами. Как и прежде, ядра CUDA имеют скалярную архитектуру, что позволяет добиться максимальной загрузки, независимо от типа обрабатываемых данных – будь то операции с z-буфером или обработка текстур. Каждый процессор CUDA оснащен одним логическим блоком ALU и одним FPU.

Кроме того, каждый мультипроцессор оснащен 16 Load/Store-блоками, позволяющими определить адреса данных в кеше или памяти для 16 потоков за каждый такт. Предусмотрены и четыре блока специальных функций (SFU, Special Function Unit), выполняющих такие операции как синус, косинус, квадратный корень. Каждый SFU выполняет одну операцию на поток за такт, так что ветвь (warp, 32 потока) выполняется за 8 тактов. Мультипроцессор организует потоки в ветви по 32 потока, для управления этими ветвями используется два планировщика ветвей – две ветви могут выполняться на одном мультипроцессоре одновременно. Планировщики GF100 передают по одной инструкции от каждой ветви группе из 16 ядер CUDA, 16 блоков LD/ST или четырех SFU. Кроме того, каждый SM оснащен четырьмя текстурными блоками – каждый из них отбирает до четырех текстурных семплов за такт, результат может быть сразу же отфильтрован – предусмотрена билинейная, трилинейная и анизотропная фильтрация. В отличие от GT200, в GF100 блоки текстурирования работают на частоте, большей частоты ядра. Текстурные блоки GF100 поддерживают форматы BC6H и BC7, реализованные в DX11 и позволяющие снизить загрузку подсистемы памяти при обработке HDR-текстур. Общая память и кеши Общая память – это быстрая, программируемая, расположенная в микросхеме память, позволяющая максимально оптимизировать обмен данными внутри потока. В GF100 помимо общей памяти используется также L1-кеш, собственный внутри каждого мультипроцессора (SM). L1-кеш работает в паре с общей памятью, в то время как общая память предназначена для алгоритмов с упорядоченным доступом к памяти, L1-кеш ускоряет те алгоритмы, где адреса данных не известны заранее.

В GF100 каждый мультипроцессор оборудован 64 Кб памяти, которая может быть поделена на 48 Кб общей памяти и 16 Кб L1-кеша или наоборот. Кроме того, предусмотрен унифицированный L2-кеш объемом 768 Кб. Он обеспечивает максимально быстрый обмен данными между различными блоками ГП.

Блоки ROP Блоки ROP в GF100 организованы партициями по восемь блоков в каждом. Каждый блок может вывести 32-бит целое значение за такт, либо FP16 за два такта, либо FP32 – за четыре. Благодаря улучшенным алгоритмам сжатия и увеличенному количеству ROP заметно ускорено сглаживание 4x и 8xMSAA – оно выполняется соответственно в 1,6 и 2,3 раза быстрее, чем GT200. Стоит отметить, что GF100 выполняет сглаживание 8xAA лишь на 9% медленнее, чем 4хАА. Кроме того, в GF100 реализован новый режим сглаживания – 32хCSAA (Coverage Sample Antialiasing).

⇡#Дополнительные возможности

В заключение стоит сказать о эффектах следующего поколения – основанных не на традиционной попиксельной обработке, а на вычислениях с помощью архитектуры CUDA. Подобные вычисления позволяют реализовать гораздо более сложные алгоритмы визуализации, как хорошо уже знакомые нам физические эффекты PhysX, так и более продвинутые техники, например, трассировка лучей (Ray Tracing) и даже реализация искусственного интеллекта средствами ГП. Круг задач, которые позволяет решить GF100 гораздо шире, чем у обычного графического процессора, однако применение новых возможностей – безусловно, вопрос завтрашнего дня, так как в настоящее время разработчики игр еще не готовы использовать весь арсенал этого процессора. Впрочем, темой одного из докладов на прошедшей в Лас-Вегасе конференции как раз стало сотрудничество компании NVIDIA с разработчиками игр, так что есть все поводы надеяться, что уже в этом году появятся первые игры, способные максимально активно использовать возможности GF100.

Благодарим российское представительство компании NVIDIA за помощь в организации поездки на выставку CES'2010 и участие в NVIDIA GF100 Deep Dive

- Обсудить материал в конференции

⇣ Содержание

Страница 1 - Стр. 1 - Введение

Страница 2 - Стр. 2 - Архитектура GF100

Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Материалы по теме

По Android-смартфонам начал распространяться троян RedHook, опустошающий банковские счета жертвы

Япония испытала прототип многоразовой ракеты — он подпрыгнул, повисел и аккуратно сел

Чудеса оптимизации: китайцы в 149 раз ускорили работу нейросетей без повышения производительности чипов

NVIDIA GF100 – полное описание архитектуры