Обзор видеокарты NVIDIA GeForce GTX 750 Ti: первый GPU на архитектуре Maxwell / Видеокарты

GeForce GTX 750 Ti, как следует из названия, — это видеоадаптер начального уровня. Одновременно NVIDIA запускает GeForce GTX 750, а название GTX 740 остается зарезервированным для наиболее дешевой и слабой модели. И все же GTX 750 Ti — бюджетный вариант и как таковой не вызвал бы большого интереса, если бы в то же время не являлся первой моделью на базе архитектуры Maxwell. Соответственно, на примере GTX 750 Ti у нас есть возможность изучить Maxwell как в теории, так и на практике, не дожидаясь выхода флагманского GPU.

В основе GTX 750 Ti лежит графический процессор GM107. В существующей номенклатуре NVIDIA позицию 107 занимает наиболее компактное ядро. Соответственно, в будущем следует ожидать появления GM104 и GM110 (или GM101). Однако транзисторный бюджет GM107 не так уж мал для его класса — 1,87 млрд. Для сравнения: GK107 состоит из 1,3 млрд транзисторов.

Количество вычислительных блоков GM107 ощутимо больше, чем у GK107: 640 ядер CUDA и 40 текстурных блоков вместо 384 и 32 соответственно. Однако GM107 по-прежнему обладает 16 блоками ROP и 128-битной шиной памяти. Сами по себе эти числа не удивляют, если бы не тот факт, что GM107 остался в тех же рамках энергопотребления, что и GK107 (заявленный TDP даже немного меньше — 60 против 64 Вт). По сути, это и есть предназначение архитектуры Maxwell — увеличить производительность на ватт.

⇡#Архитектура Maxwell

Если судить по представленным диаграммам, основное новшество Maxwell заключается в незначительной на вид, но потенциально весьма эффективной реорганизации блоков GPU. На глобальном уровне GM107 следует принципам, заложенным еще в Kepler (подробнее о них можно прочитать в обзоре GeForce GTX 680). Вся вычислительная логика сосредоточена в структуре под названием Graphics Processing Cluster (GPC), которая в GM107 всего одна, хотя в более крупных чипах их будет больше. Вне GPC расположен весь back-end процессора в виде блоков ROP и двух 64-битных контроллеров памяти, а также Giga Thread Engine, выполняющий функции смены контекста, одновременного исполнения kernel’ов и распределения потоков нагрузки между GPC (последнее пока — не наш случай). Количественное отличие от Kepler здесь состоит в кеше L2, увеличенном с 256 до 2048 Кбайт, что должно компенсировать узкую, 128-битную шину, а также сократить расход энергии на транзакции с весьма прожорливой памятью, каковой является GDDR5 SDRAM.

На уровне GPC значимых нововведений по сравнению с Kepler не заметно. Есть несколько Stream Multiprocessors, и есть единственный Raster Engine, выполняющий первоначальные стадии рендеринга: определение граней полигонов, проекцию и отсечение невидимых пикселов.

Главные изменения произошли внутри потоковых мультипроцессоров. Идея состоит в том, чтобы сместить соотношение управляющей и вычислительной логики в пользу первого компонента. Как и в Kepler, потоковый мультипроцессор (SMM в терминологии Maxwell) содержит четыре планировщика, но число ядер CUDA уменьшилось с 192 до 128, а текстурных блоков — с 16 до 8. Каждый планировщик привязан к шейдерному блоку, в который, помимо 32 ядер CUDA, входят 8 блоков Load/Store и SFU (Special Function Units, выполняющие, к примеру, тригонометрические операции). Каждая пара таких единиц в пределах SMM имеет общую секцию кеша L1, совмещенного с текстурным кешем, и связана с четырьмя текстурными блоками.

Известно, что отдельно взятый планировщик за такт может обратиться к одному (а при наличии параллелизма в потоке — сразу к двум) из следующих массивов вычислительных блоков:

32 ядра CUDA.
8 блоков Load/Store.
8 SFU.
4 текстурных блока.

В составе шейдерного мультипроцессора Kepler есть ядра CUDA, специализированные для вычислений FP64, но пока неизвестно, есть ли они и в SMM Maxwell. Итак, какие преимущества по сравнению с Kepler дает такая организация? Очевидно, что потоковый мультипроцессор Maxwell, избавившись от 64 ядер CUDA, меньше полагается на параллелизм инструкций: четыре планировщика даже в пессимистичном сценарии способны обслужить 128 ядер CUDA. Эта логика согласуется с тем, что Maxwell унаследовал от Kepler статические планировщики. Вся работа по планированию внеочередного исполнения инструкций выполняется на уровне компилятора. Такой подход позволил существенно сократить энергопотребление GPU и не оказывает большого негативного влияния на собственно шейдерные вычисления. В то же время расчеты, не связанные с графикой, не всегда предсказуемы для компилятора, поэтому чипам Maxwell явно не помешает дополнительный шаг от параллелизма на уровне инструкций к параллелизму на уровне потоков.

Попутно упрощается логика планировщиков, что в конечном счете позволяет сохранить 90% производительности отдельного потокового мультипроцессора при существенно меньшей площади SMM — по сравнению с оной у Kepler — и достигнуть столь впечатляющей энергоэффективности. Планировщики также оптимизированы с целью уменьшения латентности исполнения инструкций.

Финальный штрих к архитектуре Maxwell — усовершенствованный аппаратный кодек H.264 NVENC. Теперь GPU способен кодировать видео на скорости в 6-8 раз быстрее реального времени (4х для Kepler) и декодировать в 8-10 раз быстрее. Кроме того, в Maxwell предусмотрен новый режим энергопотребления GC5, предназначенный для снижения мощности при легкой нагрузке — такой как декодирование видео силами NVENC. Жаль только, что NVIDIA еще не внедрила поддержку стандарта H.265 для проигрывания 4К-видеозаписей.

Обновленный блок NVENC для кодирования видео пригодится прежде всего не в профессиональных приложениях, а в казуальных задачах: таких, например, как запись игрового процесса с помощью NVIDIA ShadowPlay или GameStream — трансляция видеопотока на консоль NVIDIA SHIELD.

⇡#GeForce GTX 750 Ti: технические характеристики

Тактовые частоты GeForce GTX 750 Ti довольно высоки. Базовая частота составляет 1020 МГц. Поскольку здесь используется технология GPU Boost 2.0, то есть и Boost Clock, равная 1085 МГц. Видеопамять работает на эффективной частоте 5400 МГц. Таким образом, по совокупным характеристикам GTX 750 Ti близок к GTX 650 Ti на чипе GK106, даже без учета более эффективной архитектуры Maxwell. Сам 650 Ti, кстати, будет снят с производства, уступив место GTX 750 и 750 Ti.

Известны рекомендованные розничные цены новинок. GeForce GTX 750: в США — от $119 (без налогов), в России — от 4 490 руб. GTX 750 Ti: в США — от $149 (без налогов), в России — от 5 490 руб.

Для проверки GeForce GTX 750 Ti в деле у нас есть на руках две платы — референсный образец NVIDIA и ASUS GeForce GTX 750 Ti OC Edition.

⇡#NVIDIA GeForce GTX 750 Ti

Референсный образец — минималистичная однослотовая плата, которая, благодаря низкому энергопотреблению чипа, обходится без дополнительного питания.

GPU охлаждается простым алюминиевым кулером-таблеткой.

Память набрана чипами SK hynix H5GC4H24MFR-T2C со штатной эффективной частотой 5 ГГц. Система питания максимально примитивная — две фазы для GPU и фаза для микросхем памяти.

⇡#ASUS GeForce GTX 750 Ti OC Edition

Карточка ASUS построена на печатной плате собственного дизайна и оснащена более внушительной системой охлаждения, а также разъемом дополнительного питания. Частоты ядра повышены до 1072/1150 МГц (Base/Boost Clock соответственно). Видеопамять работает на референсной частоте — 5400 МГц.

Кулер с двумя вентиляторами по внешнему виду напоминает модели DirectCU того же производителя, только здесь нет ни тепловых трубок, ни медного основания.

Вы не поверите, но здесь есть отдельный видеовыход VGA.

Чипы памяти Samsung K4G41325FC-HC03 обладают штатной эффективной тактовой частотой 6 ГГц. Формула системы питания: две фазы для GPU, фаза для чипов памяти, фаза PLL.

⇡#Тестовый стенд, методика тестирования

Конфигурация тестовых стендов
CPU	Intel Core i7-3960X @ 4,6 ГГц (100x46)	Intel Core i7-3970X @ 4,6 ГГц (100x46)
Материнская плата	ASUS P9X79 Pro
Оперативная память	DDR3 Kingston HyperX 4x2 Гбайт @ 1600 МГц, 9-9-9
ПЗУ	Intel SSD 520 240 Гбайт
Блок питания	Corsair AX1200i, 1200 Вт	Seasonic Platinum-1000, 1000 Вт
Охлаждение CPU	Thermalright Archon
Корпус	CoolerMaster Test Bench V1.0
Операционная система	Windows 7 Ultimate X64 Service Pack 1
ПО для карт AMD	AMD Catalyst 14.1 Betа
ПО для карт NVIDIA	332.21 WHQL

Для измерения мощности системы используется стенд с блоком питания Corsair AX1200i. Энергосберегающие технологии CPU во всех тестах отключены. Шина PCI-Express работает в режиме 3.0. Для активации PCI-E 3.0 на видеокартах серий GeForce 600 и 700 в системе на чипсете X79 применяется патч от NVIDIA.

В настройках драйвера NVIDIA всегда в качестве процессора для вычисления PhysX выбирается CPU. Для AMD всегда настройка Tesselation переводится из состояния AMD Optimized в Use application settings. В CrossFire-конфигурациях остается включенной опция Frame Pacing.

Набор бенчмарков
Программа	API	Настройки	Анизотропная фильтрация, полноэкранное сглаживание	Разрешение
3DMark 2011	DirectX 11	Профиль Extreme	-	-
3DMark	DirectX 11	Тест Fire Strike (не Extreme)	-	-
Unigine Heaven 4	DirectX 11	DirectX 11, макс. качество, тесселяция в режиме Extreme	AF 16x, AA Off	1920х1080 / 2560х1440
Crysis Warhead + Framebuffer Crysis Warhead Benchmarking Tool	DirectX 10	DirectX 10, макс. качество. Демо Frost Flythrough	AF 16x, AA Off	1920х1080 / 2560х1440
DiRT Showdown. Встроенный бенчмарк	DirectX 11	Макс. качество, Global Illumination вкл. Трасса Shibuya, 8 машин	AF, AA Off	1920х1080 / 2560х1440
Far Cry 3 + FRAPS	DirectX 11	DirectX 11, макс. качество, HDAO. Начало миссии Secure the Outpost	AF, AA Off	1920х1080 / 2560х1440
Tomb Raider. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, AA Off	1920х1080 / 2560х1440
Bioshock Infinite. Встроенный бенчмарк	DirectX 11	Макс. качество. Postprocessing: Normal	AF 16x, AA Off	1920х1080 / 2560х1440
Crysis 3 + FRAPS	DirectX 11	Макс. качество. Начало миссии Post Human	AF 16x, AA Off	1920х1080 / 2560х1440
Metro: Last Light. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, SSAA Off	1920х1080 / 2560х1440
Company of Heroes 2. Встроенный бенчмарк	DirectX 11	Макс. качество	AF 16x, AA Off	1920х1080 / 2560х1440
Batman: Arkham Origins. Встроенный бенчмарк	DirectX 11	Макс. качество	AF, AA Off	1920х1080 / 2560х1440
Battlefield 4 + FRAPS	DirectX 11	Макс. качество	AF 16x, AA Off	1920х1080 / 2560х1440

Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

ASUS GeForce GTX 750 Ti OC Edition (1207/6300 МГц, 2 Гбайт)
NVIDIA GeForce GTX 750 Ti (1020/5400 МГц, 2 Гбайт)
AMD Radeon R9 270 (925/5600 МГц, 2 Гбайт)
AMD Radeon R7 260X (1100/6500 МГц, 2 Гбайт)
NVIDIA GeForce GTX 650 Ti (928/5400 МГц, 1 Гбайт)
ZOTAC GeForce GTX 660 (980/6008 МГц, 2 Гбайт)

⇡#Разгон, температура, энергопотребление

Механизм авторазгона GPU Boost 2.0 действует довольно агрессивно для столь компактного ядра. На референсной плате частота достигает максимума в 1150 МГц, а напряжение на GPU поднимается вплоть до 1,156 В. В простое частота и напряжение составляют 135 МГц и 0,956 В.

Адаптер ASUS достигает частоты GPU 1215 МГц. Предельное напряжение, однако, чуть меньше: 1,143 В.

Из двух видеокарт мы попробовали на разгон ASUS, поскольку у нее есть дополнительное питание, да и номинальная частота микросхем памяти выше. В результате удалось получить 1207 МГц на GPU и 6300 МГц на чипах памяти. На попытки поднять напряжение средствами GPU Boost нет никакой реакции. И все-таки — прекрасный результат для такой скромной карты. Возможно, от графического процессора удалось бы добиться лучшего, но имеющиеся утилиты оверклокинга не позволяют сдвинуть частоту GPU более чем на 135 МГц.

По уровню пиковой мощности система с GeForce GTX 750 Ti чуть-чуть превзошла стенд с GTX 650 Ti. Разница с основным конкурентом от AMD — Radeon R7 260X — колоссальна. Кстати, в отличие от прочих видеокарт в этом тесте, результаты GTX 750 Ti были получены под нагрузкой в Far Cry 3 вместо Crysis 3 (что аналогично) по той причине, что Crysis 3 в используемой нами сборке на GTX 750 Ti не запустился. У разогнанного ASUS GeForce GTX 750 Ti OC Edition уже совсем другие цифры, и все же карта остается более экономичной в сравнении с Radeon R7 260X.

Несмотря на скромную систему охлаждения, референсный образец GeForce GTX 750 Ti нагревается весьма умеренно. Крупного алюминиевого радиатора на плате ASUS более чем достаточно для отвода тепла от GM107 даже при дополнительном разгоне.

⇡#Производительность: синтетические тесты

3DMark 2011

Разница между GTX 750 Ti и GTX 650 Ti налицо.
GTX 750 Ti также намного быстрее, чем Radeon R7 260X, но ничего не может противопоставить Radeon R9 270.

3DMark

Следующий тест еще более благоприятен по отношению к GeForce GTX 750 Ti. Фактически здесь GTX 750 Ti мало отличается от GTX 660, а при разгоне превосходит его.
Radeon R7 260X снова повержен, а R9 270 по-прежнему недосягаем.

⇡#Производительность: игровые тесты

Crysis Warhead

Лидерами теста стали Radeon R7 260X и R9 270. GeForce GTX 750 Ti не может за ними угнаться, разве что при существенном разгоне.

DiRT Showdown

Еще один бенчмарк, отдающий предпочтение графическим процессорам AMD. Radeon R7 260X недосягаем для GeForce GTX 750 Ti даже при разгоне последнего.

Far Cry 3

Удача продолжает благоволить Radeon R7 260X. Производительности GTX 750 Ti явно недостаточно для конкуренции на равных.

Tomb Raider

Уверенная победа GTX 750 Ti над R7 260X.
R9 270 все еще быстрее, чем GTX 750 Ti.
Для GeForce GTX 650 Ti тест в разрешении WQHD стал слишком тяжелым испытанием по причине небольшого объема памяти — 1 Гбайт.

Bioshock Infinite

GTX 750 Ti не только превосходит Radeon R7 260X на штатных частотах, но и может потягаться силами с Radeon R9 270 при условии разгона.

Crysis 3

В Crysis 3 мы не смогли запустить систему с GeForce GTX 750 Ti. По всей видимости, дело в версии игры, которая используется для тестов.

Metro: Last Light

Очередная победа GeForce GTX 750 Ti над основным конкурентом — Radeon R7 260X.
Разгон дает неплохой эффект, но все еще не позволяет достигнуть уровня Radeon R9 270.

Company of Heroes 2

Первые места на пьедестале заняли видеоадаптеры AMD.
Все, что смог GeForce GTX 750 Ti, — еще раз подтвердить превосходство над GTX 650 Ti.

Batman: Arkham Origins

На штатных частотах GTX 750 Ti вплотную приблизился к Radeon R9 270, а после разгона его производительность даже выше.

Battlefield 4

С небольшим преимуществом GeForce GTX 750 Ti оставил позади Radeon R7 260X. За R9 270 в этой игре новинке не угнаться.

⇡#Выводы

В пяти из девяти тестовых игр (исключая Crysis 3, где GeForce GTX 750 Ti не запустился) видеоадаптер на младшем GPU Maxwell с энергопотреблением 60 Вт одержал победу над Radeon R7 260X, чей TDP составляет 115 Вт. GeForce GTX 650 Ti с TDP 110 Вт также во всех без исключения тестах остался позади. Результат без преувеличения потрясающий. Как еще можно прокомментировать тот факт, что NVIDIA, оставаясь в рамках техпроцесса 28 нм, сумела практически удвоить показатель производительности на ватт? Впрочем, для чипа GM107 в составе десктопного видеоадаптера энергоэффективность еще не является главным достоинством. Более важно то, что GM107 в качестве замены GK107 также найдет применение в ноутбуках, где принесет колоссальный прирост быстродействия при том же тепловом пакете.

GM107 также позволяет предугадать контуры готовящихся к выходу старших GPU на базе архитектуры Maxwell. Если получится воспроизвести такой же рывок производительности на ватт в масштабе более крупных графических процессоров, то NVIDIA, пожалуй, сможет полностью обновить линейку GPU, не дожидаясь перехода к производственному узлу 20 нм. Но в ближайшие месяцы вряд ли стоит ожидать новых продуктов на Maxwell. Верхний сегмент линейки GeForce 700 еще не завершил свой жизненный цикл. В целом стратегия разумная — опробовать новую архитектуру на компактном ядре, прежде чем выпускать флагманский GPU. Таким образом ранее поступила AMD, сперва выпустив GCN 1.1 в виде Bonaire, и только потом — большой GPU Hawaii. Аналогия с GCN 1.1 продолжается в том, что Maxwell, помимо оптимизации энергопотребления, в общем-то, ничем не отличается от Kepler с практической точки зрения.

В глазах покупателя бюджетного игрового видеоадаптера энергопотребление имеет значение лишь в случае компактной системы форм-фактора Mini-ITX. В противном случае GeForce GTX 750 Ti — это еще одна дешевая карта в промежутке между Radeon R7 260X и R9 270 как по цене, так и по производительности.