Что покупать для глубокого обучения: личный опыт и советы использования gpu / хабр

Разница между Quadro и GeForce

Если верить выдаче гугла, то главное отличие профессиональных видеокарт от мейнстрима — отношение операций с двойной точностью на цикл — 1 для Quadro. То есть одна операция с двойной точностью на цикл на процессорное ядро. Еще у некоторых профи карточек есть функция ECC — код исправления ошибок памяти.

Что же по этому поводу говорят отцы-основатели? Пошел я на сайт NVIDIA и поискал информацию там. Интересно, что в разделе про видеокарты Quadro есть спецификации, но нет никакой информации, чем именно карты отличаются от игровой серии, какой прирост производительности они дают в разных приложениях. Зато на сайте есть база знаний, где можно найти подробности.

Самая свежая статья по теме (2009 год) перечисляет возможности видеокарт QuadroFX, которых нет в картах GeForce.

Антиалиасинг в каркасном режиме (Wireframe).
Логические операции OpenGL позволяют отображать поверх 3Д сцен без потери производительности.
Аппаратное ускорение удаления невидимых областей (Clip Regions) под накладывающимися друг на друга окнами и панелями программ.
Аппаратное ускорение отсекающих плоскостей (Clip Planes) для создания сечений геометрических тел.
Оптимизированное использование памяти.
Двустороннее освещение (Two sided Lighting).
Четыре буфера для стерео: front-left, back-left, front-right, back-right.
Стерео DIN порт.
Оптимизация для конкретных приложений.
Оптимизированные драйвера.

Есть еще подробное описание на тему NVIDIA Quadro vs. GeForce GPUs в формате PDF, но тоже написано в бородатые годы, и непонятно, актуально ли для сравнения современных видеокарт.

Ниже сводная таблица по топ-картам Quadro и GeForce поколений Pascal и Maxwell — краткие характеристики плюс средняя цена по больнице.

	Quadro P6000	Quadro P5000	TITAN X	GTX 1080	GTX 1070	Quadro M6000	Quadro M5000	GTX Titan X	GTX 980 Ti	GTX 980	GTX 970
Архитект.	Pascal	Maxwell 2
Техпроц., нм	16	28
Чип	GP102GL	GP104GL	GP102-400	GP104-400	GP104-200	GM200GL	GM204GL	GM200	GM204
Транз-ов, млн	?	?	12	7.2	7.2	8	5.2	8	8	5.2	5.2
Ядра CUDA	3840	2560	3584	2560	1920	3072	2048	3072	2816	2048	1664
Баз. час. ядра, МГц	?	?	1417	1607	1506	988	?	1000	1000	1126	1050
Буст час. ядра, МГц	?	?	1531	1733	1683	1140	~1050	1089	1076	1216	1178
GPU память	24 GB GDDR5X	16 GB GDDR5X	12 GB GDDR5X	8 GB GDDR5X	8 GB GDDR5	24 GB GDDR5	8 GB GDDR5	12 GB GDDR5	6 GB GDDR5	4 GB GDDR5	3.5 GB GDDR5
Интерфейс памяти, bit	?	?	384	256	256	384	256	384	384	256	256
FP32, TFLOPs	12	8.9	10.2	8.2	5.7	До 7	?	6.1	5.6	4.6	3.4
TDP, W	250	180	250	180	150	250	150	250	250	165	145
Цена, руб	окт 2016	окт 2016	88 149	63 490	34 170	394 179	155 400	58110	48 790	35 408	21 983

Из этой таблицы можно сделать вывод, что нехилая доплата за слово QUADRO — это больше причуды маркетинга, чем реальные затраты на доработку продукта.

Подходит ли видеокарта Nvidia Quadro для игр?

Вернемся к главному вопросу: можно ли использовать Quadro GPU для игр?

Краткий ответ, безусловно, да, но в данном случае вопрос должен быть не « можете ли вы его использовать», а «должны ли вы его использовать».

Правда, как карты Quadro, так и GeForce будут работать лучше в тех задачах, для которых они предназначены, то есть для профессионального рендеринга/редактирования программного обеспечения и игр соответственно. Однако, другой вопрос — цена и стоимость.

Хотя карты Quadro не повсеместно дороже, чем карты GeForce, более дешевые модели неизбежно будут работать хуже, чем карты GeForce в том же ценовом диапазоне, когда речь заходит об играх. Таким образом, приобретение видеокарты Nvidia Quadro исключительно для игр было бы нелогичным.

Конечно, если компьютер, который вы создаете, в первую очередь является рабочей станцией, которую вы также собираетесь использовать для игр, тогда Quadro может просто подойти. Тем не менее, имейте в виду, что некоторые высокопроизводительные карты GeForce могут на самом деле представлять большую ценность в зависимости от того, какой тип профессионального программного обеспечения вы будете использовать.

Если вы хотите узнать подробности и технические подробности, лучше ознакомьтесь с этим официальным подробным объяснением Nvidia.

⇡#Трассировка лучей

В Cyberpunk 2077 интегрирован полный комплект эффектов на основе трассировки лучей, включая отражения, тени и, главное, моделирование отраженного света. Все это работает в сочетании с традиционными техниками освещения — такими как карты теней, отражения в экранном пространстве и рендеринг на текстуру, который здесь применяется для рендеринга протагониста в зеркалах. Все неодушевленные персонажи здесь отражаются в гладких поверхностях, но главный герой (по всей видимости, из-за отсутствия необходимых анимаций с т. з. третьего лица) — только в зеркалах, с которыми нужно предварительно взаимодействовать.

Как и во всех предыдущих играх, использующих трассировку лучей в реальном времени, физически достоверные отражения являются наиболее заметным апгрейдом графической оболочки, а следом за ними — корректное рассеивание теней и освещение поверхностей, закрытых от прямого освещения. Нельзя сказать, что рейтрейсинг преображает внешний вид Cyberpunk 2077 при высоких общих настройках графики, но это ценное дополнение к эстетике игры.

Жаль только, что новейшие видеокарты AMD 6000-й серии появились слишком поздно, чтобы движок Cyberpunk 2077 научился использовать функции аппаратной трассировки лучей в чипах RDNA. Это изменят грядущие обновления игры, но пока трассированные эффекты могут лицезреть только владельцы «зеленых» ускорителей. Любопытно, что рейтрейсинг на свой страх и риск можно включить даже на видеокартах серии GeForce 16 (однако не GeForce 10), которые не могут выполнять его на аппаратном уровне, но драйвер NVIDIA допускает программную обработку силами шейдерных ALU. Ждать приемлемой частоты смены кадров от железа без аппаратных RT-блоков, разумеется, не стоит. Мы еще успеем убедиться, что Cyberpunk 2077 — чрезвычайно требовательная игра, а с трассировкой лучей тем более.

RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.
RT выкл.		RT вкл.

Подходит ли видеокарта Nvidia Quadro для игр?

Вернемся к главному вопросу: можно ли использовать Quadro GPU для игр?

Ответы на вопросы и заблуждения

PCIe-линии и PCIe 4.0 не имеют значения для систем с двумя GPU. Для систем с 4-мя GPU – практически не имеют.
Охлаждать RTX 3090 и RTX 3080 будет тяжело. Используйте водяное охлаждение или расширители PCIe.
NVLink нужен только для GPU-кластеров.
В одном компьютере можно использовать разные GPU (например, GTX 1080 + RTX 2080 + RTX 3090), но эффективной параллелизации не получится.
Для параллельной работы более чем двух машин потребуется Infiniband и сеть на 50 Гбит/с.
Процессоры от AMD дешевле, чем от Intel, и у последних почти нет преимуществ.
Несмотря на героические усилия инженеров, AMD GPU + ROCm вряд ли смогут конкурировать с NVIDIA из-за отсутствия сообщества и эквивалента тензорных ядер в ближайшие 1-2 года.
Облачные GPU выгодны, если использовать их не более года. После этого настольный вариант становится дешевле.

Догонят ли AMD GPU + ROCm когда-нибудь NVIDIA GPU + CUDA?

Когда лучше использовать облачные сервисы, а когда – специальный компьютер с GPU?

Компьютер кандидата наук: <15%;
Кластер GPU на Slurm кандидата наук: > 35%;
Корпоративный исследовательский кластер на Slurm: > 60%.

5 PNY Quadro NVS 810

Желающим обзавестись множеством мониторов и создать у себя центр мониторинга или охраны, данная карта станет лучшим решением. Вы сможете подключить до 8 мониторов с разрешением экрана до 5120×2880.

Объем памяти здесь стандартный для своего сегмента и равняется 4 Гб, но ее тип DDR3, что медленно по современным меркам. Шина тоже небольшая – всего 128 бит. Пакет тепловыделения полностью соответствует карте и составляет 68 Вт – никаких вам перегревов и лишнего шума, хотя здесь установлена турбина с испарительной камерой. Видеокарта занимает всего 1 слот, имеет поддержку HDCP и 8 Mini Display портов.

2 PNY Quadro P4000

Постепенно приближаемся к самым производительным и дорогим видеокартам на рынке. P4000 не переваливает за психологическую отметку в 100 тысяч рублей. Ценник колеблется в диапазоне от 68 до 87 тысяч. За эти деньги мы получаем продукт, который удовлетворит потребности большинства профессиональных пользователей. Видеопродакш, расчет инженерных конструкций – карточка справится достаточно быстро. Внешность куда презентабельнее предыдущих участников рейтинга. Quadro P400 занимает один слот, однако требует дополнительного питания через 6-pin разъем.

За вычисления отвечает 16 нм процессор GP104GL и 8 Гб памяти GDDR5 с шиной в 256 бит. Универсальных процессоров 1792. Текстурных блоков 112, блоков растеризации 64. Также отметим, что данная видеокарта поддерживает SLI – систему, позволяющую подключать одновременно несколько GPU для увеличения вычислительной мощности. В целом, P4000 обгоняет в синтетических тестах P2000 приблизительно на 30%.

Наличие

Плата NVIDIA Quadro 2000D уже поступила в продажу и сертифицирована для систем медицинской визуализации с применением рабочих станций HP Z800, Z600 и Z400; она обеспечивает широкую совместимость рабочих станций HP с медицинскими мониторами от сторонних компаний и предназначена для использования в больницах, радиологических отделениях и клиниках. Плата также доступна для рабочих станций Dell Precision T7500, T5500, T3500 и R5400 в США по программе Dell Software & Peripherals (S&P).

ECC (error-correcting code, код коррекции ошибок) — данные, присоединяемые к каждому передаваемому сигналу, позволяющие принимающей стороне определить сбой и исправить несущественную ошибку. В данном случае ECC используется при обмене данных с графической оперативной памятью и помогает значительно сократить число ошибок при вычислениях. Как следствие, качество выдаваемого видеокартой изображения повышается.
NVIDIA CUDA — фирменная архитектура параллельных вычислений от NVIDIA для профессиональных графических процессоров Quadro, предлагающая значительное повышение производительности в таких областях, как кодирование видео, обработка изображений и точная физика.

Тестовая конфигурация компьютера и набор тестов

Наша тестовая подборка включает в себя самые разнообразные сценарии – от рендеринга до вычислительных задач – и содержит как синтетические бенчмарки, так и примеры из реальных приложений, в частности, от Adobe и Autodesk.

В большинстве тестов участвовали вышеупомянутые 12 видеокарт, но в CUDA-тестах мы добавили к заглавным картам NVIDIA не-SUPER версии 2060/2070/2080, а также 2080 Ti, чтобы немного разбавить результаты. Ограниченное время не позволило нам включить эти карты в остальные тесты, но и результаты CUDA-тестов в любом случае повышают репрезентативность нашего обзора.

К сожалению, эта статья получилась не такой однородной, как нам хотелось бы. Мы столкнулись с рядом нестыковок, связанных со спецификой используемых программ; эти проблемы описаны непосредственно перед результатами соответствующих тестов. В частности, карты AMD Navi не работали с программами MAGIX Vegas Pro и SiSoftware Sandra, хотя мы уверены, что это скоро исправят. Вдвойне досадно, что тест в AMD Radeon ProRender у нас тоже полетел из-за бага, о котором мы еще поговорим, а этот рендерер мог бы стать третьим для карт AMD; зато у карт NVIDIA был дополнительный бонус в виде четырех тестов для CUDA.

Но ничто не идеально. Когда будет время, мы проведем повторное тестирование, а на данный момент у нас все-таки есть достаточное количество результатов для разбора. Для начала – состав тестовой конфигурации.

Тестовая конфигурация рабочей станции
Процессор	Intel Core i9-9980XE (18 ядер, 3.0 ГГц)
Материнская плата	ASUS ROG STRIX X299-E GAMING
Память	G.SKILL Flare X (F4-3200C14-8GFX) 4x 8 ГБ; DDR4-3200 14-14-14
Графика	AMD Radeon VII (16 ГБ, Adrenaline 19.7.1) AMD Radeon RX 5700 XT (8 ГБ, Adrenaline 19.7.2) AMD Radeon RX 5700 (8 ГБ, Adrenaline 19.7.2) AMD Radeon RX 590 (8 ГБ, Adrenaline 19.7.1) AMD Radeon Pro WX 8200 (8 ГБ, Enterprise 19.Q2.1) NVIDIA TITAN RTX (24 ГБ, GeForce 431.36) NVIDIA GeForce RTX 2080 SUPER (8 ГБ, GeForce 431.56) NVIDIA GeForce RTX 2070 SUPER (8 ГБ, GeForce 431.36) NVIDIA GeForce RTX 2060 SUPER (8 ГБ, GeForce 431.36) NVIDIA GeForce GTX 1080 Ti (11 ГБ, GeForce 431.56) NVIDIA GeForce GTX 1660 Ti (6 ГБ, GeForce 431.56) NVIDIA Quadro RTX 4000 (8 ГБ, Quadro 431.02)
Аудиосистема	Встроенная
Накопитель	SSD Kingston KC1000 960 ГБ M.2
Блок питания	Corsair 80 Plus Gold AX1200
Корпус	Corsair Carbide 600C Inverted Full-Tower
Охлаждение	Жидкостный кулер NZXT Kraken X62 AIO
Операционная система	Windows 10 Pro, версия 18362 (1903)

Все бенчмарки мы разделили на четыре группы. В первую группу вошли «нейтральные» рендереры Blender и LuxMark. Во вторую – программы только для CUDA: V-Ray, Arnold, Redshift и Octane.

В третью группу мы включили кодировочные тесты: Adobe Premiere Pro, MAGIX Vegas Pro и – новое слово в нашей подборке тестов для GPU – Agisoft Metashape. Metashape – это приложение для фотограмметрии, но, пока мы не добавим в наш тестовый арсенал другие аналогичные приложения (например, Reality Capture, которое скоро выйдет), чтобы можно было выделить их в отдельную группу, Metashape будет числиться в категории кодировочных тестов. И, наконец, четвертую группу составили популярные программные пакеты с визуализацией моделируемых объектов.

⇡#Тесты с трассировкой лучей

При том, насколько требовательной игра может быть без трассированных эффектов, совершенно неудивительно, что лишь владельцы самых мощных ускорителей NVIDIA с функциями аппаратного рейтрейсинга могут позволить себе отказаться от масштабирования кадров силами DLSS. Уже при разрешении 1080p понадобится GeForce RTX 3080 или RTX 3090, чтобы удержать фреймрейт выше 60 FPS, а в более требовательных условиях 1440p, не говоря уже о 4К, нужного железа пока просто не существует.

Впрочем, даже в компромиссном режиме Performance — судя по быстродействию, он использует нативное разрешение 720p для рендеринга в 1440p и 1080p в 4К — DLSS не в состоянии полностью компенсировать дефицит сырой вычислительной мощности. Только GeForce RTX 3090 удалось перешагнуть через отметку 60 FPS в 4К, при разрешении 1440p граница проходит через GeForce RTX 2080, а в 1080p осталась не у дел базовая модификация GeForce RTX 2060.

Как ни крути, большинство устройств с аппаратным рейтрейсингом Cyberpunk 2077 запер в разрешении 1080p, и все равно их владельцам нужно смириться с определенным падением качества изображения, вызванным DLSS. Или попросту отключить часть трассированных эффектов. Остается только гадать, как тяжело придется ускорителям AMD 6000-й серии, которые на одно поколение отстают от своих «зеленых» конкурентов в скорости рейтрейсинга.

Тестовая конфигурация ПК и набор тестов

Далее мы рассмотрим результаты тестирования видеокарт. Наша тестовая подборка включает в себя самые разнообразные сценарии – от рендеринга до вычислительных задач – и содержит как синтетические бенчмарки, так и тесты с реальными приложениями, например, от Adobe и Autodesk.

Для этого обзора мы отобрали семь видеокарт, но основное внимание будет уделено сравнению карт Quadro двух соседних поколений: P4000 и RTX 4000. Также будет интересно сравнить их с видеокартой AMD Radeon Pro WX 8200, которая поступила в продажу прошлой осенью по сопоставимой цене ($999).. Тестовая конфигурация

Тестовая конфигурация


Процессор	Intel Core i9-7980XE (18 ядер; 2.6 ГГц)
Материнская плата	ASUS ROG STRIX X299-E GAMING
Память	HyperX FURY (4x 16 ГБ; DDR4-2666 16-18-18)
Графика	AMD Radeon VII (16 ГБ; Press Driver от 22.01) AMD Radeon Pro WX 8200 (8 ГБ; 18.Q4.1) NVIDIA GeForce RTX 2080 Ti (11 ГБ; 417.71) NVIDIA TITAN Xp (12 ГБ; 417.71) NVIDIA Quadro RTX 4000 (8 ГБ; 412.16) NVIDIA Quadro P6000 (24 ГБ; 412.16) NVIDIA Quadro P4000 (8 ГБ; 412.16)
Аудиосистема	Встроенная
Накопитель	SSD Kingston KC1000 960 ГБ M.2
Блок питания	Corsair 80 Plus Gold AX1200
Корпус	Corsair Carbide 600C Inverted Full-Tower
Система охлаждения	Жидкостный кулер «всё в одном» NZXT Kraken X62
Операционная система	Windows 10 Pro версия 17763 (1809)

Все наши бенчмарки можно разделить на три большие группы. В первую входят тесты из пакетов Adobe Premiere Pro и MAGIX Vegas Pro на перекодирование видеофайлов с использованием кодеков AVC и HEVC, а также тесты из пакета Sandra, показывающие производительность в финансовых и научных расчетах и в криптографических задачах.

Во вторую группу входят рендеры: популярный открытый дизайнерский пакет Blender, а также LuxMark, Radeon ProRender и специально для видеокарт NVIDIA – Redshift, V-Ray и OctaneRender.

Третья группа включает в себя тесты из пакета SPECviewperf на визуализацию моделируемых объектов, а также задачи из популярных приложений для проектирования – CATIA, SolidWorks, Siemens NX, Creo и 3ds Max и Maya от Autodesk.

Итак, поехали.

Скорость глубокого обучения GPU в пересчёте на стоимость

Использование предварительно обученных трансформеров, или обучение небольшого трансформера с нуля >= 11 ГБ.
Обучение большого трансформера или свёрточной сети в исследовании или продакшене: >= 24 ГБ.
Прототипирование нейросетей (трансформера или свёрточной сети) >= 10 ГБ.
Участие в конкурсах Kaggle >= 8 ГБ.
Компьютерное зрение >= 10 ГБ.

Рис. 3: нормализованное быстродействие в пересчёте на доллары по отношению к RTX 3080.Рис. 4: нормализованное быстродействие в пересчёте на доллары по отношению к RTX 3080.Рис. 5: нормализованное быстродействие в пересчёте на доллары по отношению к RTX 3080.

⇡#1920 × 1080

На первый взгляд, системные требования Cyberpunk 2077 не так уж велики в контексте возможностей современного железа. Но только если ограничиться разрешением 1080p и выключить трассировку лучей (которую мы рассмотрим в другом разделе). Абсолютный минимум производительности — для игры при низком качестве графики с расчетом на фреймрейт 30 FPS — обеспечивают видеокарты уровня Radeon RX 560 или GeForce GTX 1050 Ti, а вот для комфортных 60 FPS (также на минималках) понадобится ускоритель не хуже Radeon RX 580, Radeon RX 5500 XT или GeForce GTX 1650 SUPER. Взгляните еще раз на скриншоты с различными настройками, и вы поймете, что это вовсе не те производительность и качество изображения, с которыми легко смириться. Закрадывается подозрение, что игра с трудом масштабирует свои запросы к железу вместе с параметрами графики.

Понадобится довольно неслабый даже по современным представлениям компьютер, чтобы раскачать Cyberpunk 2077 до 60 FPS при средних настройках детализации, — как минимум Radeon RX Vega 56 или GeForce GTX 1070, а из моделей поновее — Radeon RX 5500 XT или GeForce GTX 1660. На устаревших видеокартах средней категории (Radeon RX 570 и GeForce GTX 1060), а также современных бюджетных решениях (Radeon RX 5500 XT, GeForce GTX 1650) по-прежнему можно играть, но уже с посредственным фреймрейтом от 30 до 60 кадров в секунду.

Разница между средним и ультравысоким качеством графики в Cyberpunk 2077, как обычно бывает с ААА-проектами последних лет, не бросается в глаза, и многие среди протестированных ускорителей легко переживают дополнительную нагрузку. Radeon RX 580, GeForce GTX 1070, а лучше RX 5500 XT и GTX 1650 SUPER, позволят запустить игру с приемлемым «консольным» фреймрейтом 30—60 FPS. Для 60 FPS достаточно GeForce GTX 1080 Ti, а если брать устройства поновее, то Radeon VII, RX 5700 XT или GeForce RTX 2060. Все железо нового поколения (Radeon 6000-й серии и видеокарты GeForce 30) без малейших проблем тянет Cyberpunk 2077 в режиме 1080p c качественной графикой.

Наконец, обратим внимание на соотношение сил между продуктами NVIDIA и AMD. В отношении последних новинок обоих чипмейкеров тесты в Cyberpunk 2077 не открыли чего-то принципиально нового, хотя игра все-таки лучше оптимизирована под «зеленое» железо

Здесь Radeon RX 6800 XT предсказуемо уступает GeForce RTX 3080, а сократить дистанцию сумел только Radeon RX 6900 XT. Да, мы наконец-то получили в свое распоряжение флагманскую модель AMD на большом чипе Navi и скоро опубликуем ее полномасштабный обзор.

В свою очередь, базовая модель RX 6800 отработала в бенчмарке на уровне GeForce RTX 2080 Ti и не превосходит по фреймрейту GeForce RTX 3070, что противоречит средним результатам недавнего тестирования в десятке других игр. «Красным» ускорителям на чипах RDNA первого поколения пришлось еще труднее: Radeon RX 5700 XT не смог обойти даже GeForce RTX 2060 SUPER, а RX 5700 — RTX 2060. Однако при всем этом ускорители NVIDIA серии GeForce 10 опустились ниже своих привычных позиций по сравнению с семейством Radeon RX Vega. Видеокарты на графических процессорах Polaris (Radeon RX 570, RX 580 и RX 590) также прибавили в относительных оценках производительности. В более требовательных режимах эта тенденция будет только усиливаться, подтверждая теорию «раскрытия потенциала» старых чипов AMD.

⇡#2560 × 1440

Если вы намереваетесь играть в Cyberpunk 2077 на слабом железе и готовы пожертвовать качеством графики ради увеличенного разрешения экрана, такую возможность, пусть и не с комфортной частотой смены кадров, дают Radeon RX 570, GeForce GTX 1060 или более свежие модели аналогичной производительности — Radeon RX 5500 XT и GeForce GTX 1650. Для фреймрейта не меньше 60 FPS приготовьте Radeon RX Vega 64, Radeon RX 5600 XT или GeForce GTX 1660 Ti.

Переход к средним настройкам графики при разрешении 1440p поднимает системные требования на одну ступень модельного ряда AMD и NVIDIA. Такие устройства, как Radeon RX 5500 XT (только уже с 8, а не 4 Гбайт VRAM), GeForce GTX 1650 SUPER, а из моделей позапрошлого поколения Radeon RX 580 и GeForce GTX 1070, не достигают комфортного фреймрейта в 60 FPS, но переваливают через критическую отметку в 30. Плавную смену кадров гарантируют вышедшие на пенсию, но по-прежнему довольно мощные устройства класса GeForce GTX 1080 Ti, Radeon RX Vega 64 с водяным охлаждением, а также их современные аналоги — GeForce RTX 2060 SUPER и Radeon RX 5700 XT. Увы, эта комбинация разрешения и настроек графики — потолок для старого железа, если ориентироваться на кадровую частоту не меньше 60 FPS.

Похожие требования Cyberpunk 2077 предъявляет для игры с высококачественной графикой и компромиссным фреймрейтом от 30 до 60 FPS: подойдут Radeon RX Vega 64, GeForce GTX 1080 Ti, Radeon RX 5600 XT или базовая версия GeForce RTX 2060. А вот затем начинается самое интересное: среди 40 подопытных устройств проверку на 60 FPS прошли только Radeon RX 6800, GeForce RTX 3070 и старшие модели соответствующих серий. Даже семейство GeForce 20 не может предложить другого решения этой задачи, помимо RTX 2080 Ti.

⇡#Участники тестирования

AMD Radeon RX 5700 XT (1605/1905 МГц, 14000 Мбит/с, 8 Гбайт);
AMD Radeon RX 5500 XT (1607/1845 МГц, 14000 Мбит/с, 8 Гбайт);
AMD Radeon VII (1400/1750 МГц, 2000 Мбит/с, 16 Гбайт);
AMD Radeon RX Vega 64 (1247/1546 МГц, 1890 Мбит/с, 8 Гбайт);
AMD Radeon RX 480 (1120/1266 МГц, 8000 Мбит/с, 8 Гбайт);
AMD Radeon R9 Fury X (–/1050 МГц, 1000 Мбит/с, 4 Гбайт);
AMD Radeon R9 290X (–/1000 МГц, 5000 Мбит/с, 4 Гбайт);
AMD Radeon HD 7970 GHz Edition (1000/1050 МГц, 6000 Мбит/с, 3 Гбайт);

NVIDIA GeForce RTX 2080 Ti Founders Edition (1350/1635 МГц, 14000 Мбит/с, 11 Гбайт);
NVIDIA GeForce RTX 2060 SUPER (1470/1650 МГц, 14000 Мбит/с, 8 Гбайт);
NVIDIA GeForce GTX 1650 SUPER (1530/1770 МГц, 8000 Мбит/с, 4 Гбайт);
NVIDIA GeForce GTX 1080 Ti (1480/1582 МГц, 11000 Мбит/с, 11 Гбайт);
NVIDIA GeForce GTX 980 Ti (1000/1076 МГц, 7010 Мбит/с, 6 Гбайт);
NVIDIA GeForce GTX 780 Ti (876/928 МГц, 7000 Мбит/с, 3 Гбайт);
NVIDIA GeForce GTX 680 (1006/1058 МГц, 6008 Мбит/с, 2 Гбайт).

Прим. В скобках после названий видеокарт указаны базовая и boost-частота согласно спецификациям каждого устройства. Видеокарты нереференсного дизайна приведены в соответствие с референсными параметрами (или приближены к последним) при условии, что это можно сделать без ручной правки кривой тактовых частот. В противном случае (ускорители серии GeForce 16, а также GeForce RTX Founders Edition) используются настройки производителя.

Самые важные характеристики GPU, влияющие на скорость обработки

Тензорные ядра

Тензорные ядра уменьшают количество тактов, необходимых для подсчёта умножений и сложений в 16 раз – в моём примере для матрицы 32×32 с 128 до 8 тактов.
Тензорные ядра уменьшают зависимость от повторяющегося доступа в общую память, экономя такты доступа в память.
Тензорные ядра работают так быстро, что вычисления перестают быть узким местом. Единственным узким местом остаётся передача им данных.

Доступ к глобальной памяти до 48 Гб: ~200 тактов.
Доступ к общей памяти (до 164 КБ на потоковый мультипроцессор): ~20 тактов.
Совмещённое умножение-сложение (СУС): 4 такта.
Перемножение матриц в тензорных ядрах: 1 такт.

4 PNY Quadro P400

Quadro P400 – профессиональная видеокарта начального уровня. Её стоимость колеблется в диапазоне 12-14 тысяч, что можно считать крайне доступным ценником. Надеяться на высокую вычислительную мощность не приходится, однако для простого видеомонтажа, вычислений студенческого уровня или других подобных задач её вполне хватит. Также некоторые пользователи, судя по отзывам, используют P400 в качестве видеокарты для стриминга игр на Ютуб, Твич и т.п.

Габариты минимальны – карточка занимает один слот, размеры всего 145х69 мм – можно собрать крайне компактную рабочую систему. Ядро выполнено по 14 нм техпроцессу (процессор GP107GL). Оперативной памяти всего 2 Гб, тип GDDR5. Универсальных процессоров 256, текстурных блоков 16, блоков растеризации – 16. Выводить изображение предлагается через 3 Mini DisplayPort. Радует, что в комплекте есть переходники на DisplayPort и DVI разъемы. Наконец, отметим, что TDP всего 30 Вт, а значит ожидаем низкий уровень шума.

Что ещё следует учесть в случае с Ampere / RTX 30

Ampere позволяет проводить обучение сетей на основе разреженных матриц, что ускоряет процесс обучения максимум в два раза.
Разреженное обучение сетей до сих пор редко используется, однако благодаря ему Ampere не скоро устареет.
У Ampere есть новые типы данных с малой точностью, благодаря чему использовать малую точность гораздо проще, однако это не обязательно даст прирост в скорости по сравнению с предыдущими GPU.
Новый дизайн вентиляторов хорош, если между GPU у вас есть свободное место – однако непонятно, эффективно ли будут охлаждаться GPU, стоящие вплотную.
3-слотовый дизайн RTX 3090 будет проблемой для сборок по 4 GPU. Возможные решения – использовать 2-слотовые варианты или расширители для PCIe.
Четырём RTX 3090 потребуется больше питания, чем может предложить любой стандартный БП на рынке.