|
Особенности архитектуры чипа R580 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Дмитрий Люкшин (Tester) 4.07.2006
Введение.Разработчики игр всегда стремились к воссозданию на экране монитора кинематографического изображения. Очередным шагом к заветной цели стала технология HDR (High Dynamic Range), приближающая картинку к реальности, но требующая высокопроизводительного графического процессора. В результате видеоускорители постоянно совершенствуются, и каждый виток обновления архитектуры радует потребителей возросшей в 1,5-2,5 раза производительностью. Только цены печалят: смена поколения поднимает ценовую планку на High End в среднем на 50$. По прогнозам, в которые не хотелось бы верить, уже через несколько лет элитные решения, перешагнут отметку в 1000$. Несколько лет назад для получения большинства графических эффектов программисты использовали мультитектстурирование, и максимальную производительность демонстрировали видеопроцессоры с большим количеством текстурных блоков (texture mapping unit, TMU). В конце концов, для разгрузки графического процессора стали применять технологии типа bump mapping и normal mapping, а возросший объём набортной памяти (особенно в решениях элитного класса) вкупе с технологиями сжатия текстур (3Dc, DXT) и отсечения невидимых поверхностей, помогающих экономить её пропускную способность, перестал ограничивать применение текстур высокого разрешения. Расправившись с одной проблемой, разработчики взялись развивать новое направление - пиксельные шейдеры, с помощью которых сейчас реализованы практически все красоты 3D-графики. Если коротко - это программы, состоящие из двух типов инструкций, текстурных и математических. Причём отслеживается рост именно математической сложности пиксельных шейдеров. Довольно продолжительный период использовались шейдеры версии 2.0, но компания NVIDIA форсировала переход к версии 3.0, выпустив линейку ускорителей GF6ххх. Как следствие, графические эффекты стали ещё богаче. Например, наикрасивейшая для своего времени вода в игре Far Cry состояла всего из 54 инструкций, а в тесте 3DMark 06 уже есть шейдеры длиной более 500 инструкций. Первым продуктом компании ATI, поддерживающим третью версию стал Radeon X1800 XT. Ускоритель получил новую архитектуру, но содержал всего 16 пиксельных конвейеров и с трудом выдерживал конкуренцию с High End продуктами NVIDIA, в которых их было 24. Исправить ошибку помог более совершенный процессор - Radeon X1900 XTX, наделённый весьма оригинальной конвейерной формулой: 16 TMU, 16 ROP's и 48 блоков пиксельных процессоров. Сейчас уже стало очевидным, что компания ATI обнародовала не временное решение, а архитектуру, ориентированную на будущее, и именно в таком ключе видит дальнейшую эволюцию графических ускорителей. В статье мы затронем общие аспекты архитектуры R5XX и попробуем разобраться в особенностях строения чипа R580. А так же, наконец, ответим на насущный вопрос, оставшийся нераскрытым в нашей прошлой статье - что выгоднее и быстрее, две Radeon X1800 GTO в режиме CrossFire или одна элитная видеокарта Radeon X1900 XTX?
Архитектурные особенности чипа R580 или новый путь наращивания производительностиЧипы R520 и R580 разрабатывались независимыми командами инженеров параллельно и имеют существенные архитектурные различия. По количеству транзисторов R580 является на сегодняшний день рекордсменом среди графических чипов - 384 млн. У R520 их было меньше примерно на 60 миллионов (~20%). Для сравнения, High End чипы NVIDIA имеют: G70 (GeForce 7800) - 302 млн., а оптимизированный (с точки зрения производительности на число транзисторов) G71 (Geforce 7900) и того меньше - "всего" 279 млн.
Основные характеристики R580:
Как видно из схемы, пиксельных вычислительных квадов - 12, по 4 блока пиксельных процессоров в каждом, а "текстурников" - 4 квада (то есть за такт выбирается 16 текстур). Соотношение блоков пиксельных шейдеров к текстурным блокам составляет 3 к 1. Такое же соотношение можно видеть в архитектуре чипа RV530 (Radeon X1600), правда, в младшей модели блоков меньше в 4 раза. Текстурная часть и пиксельные процессоры, выполняющие арифметические и другие операции, функционируют в чипе автономно. Чтобы скоординировать их работу и избежать неоправданных задержек, возникающих при зависимых выборках текстур при обработке шейдеров 2.X и 3.0, ATI разработала специальный блок-диспетчер - Ultra-Threading Dispatch Processor. Он распределяет нагрузку между блоками, одновременно обрабатывая 512 потоков, причём запрос может поступить на любой стадии исполнения шейдера. Таким образом, гарантируется полная загрузка всех блоков и исключается задержка доступа к текстурам, соответственно, повышается эффективность использования вычислительных ресурсов.
Также в R5XX к каждому пиксельному процессору добавили по блоку ветвлений (Branch Execution Unit), и на пиксельные процессоры стали поступать только те пиксели, которые требуют обработки в текущий момент. Чтобы снизить нагрузку на блок-диспетчер, в пиксельные процессоры встроили блоки управления потоком. В результате отдельный пиксельный процессор R580 может выполнять от одной до пяти операций (в зависимости от их типа) за такт, а случае запроса данных из TMU (при оптимальном шейдерном коде), пиковая производительность составляет 6 операций. R580 унаследовал от R520 512-битную внутреннюю кольцевую шину памяти:
Структурно она представляет собой два разнонаправленных кольца по 256 бит, 4 канала памяти, и имеет программируемую логику арбитража. Кольцевая внутренняя шина памяти удешевляет чип, благодаря упрощению разводки, менее подвержена нагреву и, как следствие, может работать на более высоких тактовых частотах.
Краткий перечень аппаратно-программных технологий R580:
Разберём вышеперечисленные пункты подробнее. Видеокарты семейства X1x00 полностью соответствуют стандарту SM 3.0. Ветвления и динамические переходы в пиксельных и вершинных шейдерах при наличии определенных оптимизаций могут значительно влиять на уровень производительности. Но пока эти технологии не прижились, так как многое зависит от разработчиков игр. Объясняется это малой скорость их исполнения в чипах NVIDIA, которые являлись первыми SM 3.0 решениями и не имеют столь же эффективных внутренних оптимизаций. Архитектура R5XX поддерживает формат данных FP16, используемый для создания HDR эффектов в большинстве игр. Следует заметить, что ATI имеет здесь существенное конкурентное преимущество - поддерживается режим FP16+MSAA. Этим не могут похвастаться даже элитные чипы NVIDIA, которые в силу особенностей строения не используют сглаживание одновременно с HDR. Приведем несколько скриншотов для сравнения режимов HDR noAA и HDR MSAA4x. Слева картинка с HDR без сглаживания, справа - HDR с включенным сглаживанием:
Нельзя не отметить немаловажные изменения по сравнению с R520, связанные с появлением технология Fetch4, которая позволяет выбрать за такт четыре соседних значения из текстуры вместо одного в случае отсутствия фильтрации, и может ускорить её, если она запрограммирована в коде шейдера, например, в FP16. Претерпел изменения и HyperZ - внутричиповые кэши в R580 увеличены вдвое. Выход чипов R5XX дал возможность пользователю выбирать между стандартной и более качественной реализацией алгоритма анизотропной фильтрации - High Quality AF. Важным козырем архитектуры R5XX является технология ATI AVIVO, преимущества которой мы уже подробно разбирали в этой статье. И, конечно же, R580 поддерживает технологию ATI CrossFire. Для организации системы на базе двух карт для текущего тестирования нам понадобился Radeon X1900 XT/XTX и Radeon X1900 CrossFire Edition оснащенный чипом Compositing Engine, соединительный кабель и материнскую плату с поддержкой CrossFire. Однако у R580, как и у остальных чипов R5XX есть свои недостатки, например, отсутствует фильтрация плавающих форматов (FP16), нет даже самой простой - билинейной. На практике это означает, что разработчику, желающему использовать билинейную или трилинейную фильтрацию текстуры, хранимой в плавающем формате, придётся кодировать оную в пиксельном шейдере, затратив какое-то количество выборок текстур и написав десяток вычислительных команд. То есть появляется необходимость рассчитывать 4 смещенных координаты, выбирать и усреднять четыре значения из текстуры. И всё это вместо одной стандартной операции выборки значения. Соответственно, растёт сложность кода, понижается его гибкость и падает производительность. Впрочем, станет ли этот минус архитектуры R5xx существенным недостатком в будущем, будет зависеть в основном от "игроделов". Ведь с некоторой точки зрения фильтрация не столь важна как мультисемплинг, и её всё же можно запрограммировать в шейдере, а падение производительности не должно быть существенным, учитывая вычислительную мощь чипа R580. Зато видеопроцессор ATI поддерживает MSAA + FP16 (HDR), а чипы NVIDIA уже во втором поколении игнорируют такой режим. Вторым ограничением архитектуры R5XX, можно считать отсутствие выборки текстур из вершинных процессоров. Вероятно, это связано с тем, что реализация полноценных текстурных блоков с быстрой выборкой и поддержкой фильтрации различных форматов, приведёт к значительному усложнению и увеличению размеров кристалла. В поколении NVIDIA GF7ххх доступ из вершинных модулей к текстурам и существует, но выполняется недостаточно быстро и без фильтрации. В результате игр с реальной поддержкой этой технологии довольно мало. Несмотря на это, компания Microsoft требует её наличия для соответствия DirectX 10 (WGF 2.0), и скоро мы увидим, какие решения найдут производители игровых карт.
Sapphire Radeon X1900 XTXВидеокарта предоставлена на тест российским представительством компании Sapphire в комплектации Retail с P/N 102-A52021-50-AT. Дизайн коробки типично "сапфировский": с коробки на нас глядит женское существо инопланетного вида:
Комплектация вполне стандартная: кликните по картинке для увеличения [136 KB]
кликните по картинке для увеличения [207 KB]
кликните по картинке для увеличения [236 KB]
На первый взгляд дизайн платы похож на таковой у Radeon X1800 XT, но если после внимательного осмотра выявляются отличия в схеме питания графического процессора и памяти. Ведь чип R580 имеет большее количество транзисторов и несколько подросшее энергопотребление (~120 Watt против ~110 у X1800 XT), соответственно без модификации питания не удалось обойтись. Стоить заметить, что элитные видеокарты производятся по заказу ATI на сторонних заводах, а затем передаются на реализацию, и поэтому ни один партнер канадской компании не имеет непосредственного отношения к их производству. Все "бренды" покупают у ATI готовые продукты и лишь наклеивают на радиатор картинки со своим именем. Различия могут быть на уровне BIOS (тайминги, напряжения и Vendor ID) и, естественно в стоимости, гарантийных сроках и комплектации. Охлаждение используется аналогичное, устанавливаемому на Radeon X1800 XT, и занимает два слота. Массивный радиатор покрывает большую часть лицевой стороны карты и закрыт сверху пластиковым кожухом. Вентилятор гонит горячий воздух за пределы системного блока через решётку. Модули памяти расположены на лицевой стороне карты и контактируют с радиатором через толстые термопрокладки. Видеокарта обладает 512 МБ памяти типа GDDR3 производства Samsung, минимальный период следования тактовых импульсов составляет 1.1 нс. Память работает на частоте 775 (1550) МГц, но теоретически чипы Samsung K4J52324QC-BJ11 могут функционировать на частоте 1800МГц. Видимо, в ATI решили оставить запас для разгона на случай выпуска со стороны конкурента более производительного решения. Такую же ситуацию мы наблюдали в случае Radeon X1800 XT, когда канадцы, спустя некоторое время, официально выпустили BIOS с приподнятыми частотами. Но, судя по всему, в этот раз не стоит ждать подобного подарка, ведь уже в конце третьего квартала текущего года выйдет R580+, произведенный по 80 нм техпроцессу с поддержкой прогрессивной памяти GDDR4. В наличии два порта DVI с поддержкой HDCP, а также HDMI через переходник. Как и все элитные видеокарты от ATI, Radeon X1900 XTX наделён VIVO (TV-Out и TV-In интерфейс, HDTV-Out) - на плате распаян чип Rage Theater.
Характеристики Sapphire ATI Radeon X1900 XTX
Разгон, температурный режим и качество 2DВ режиме простоя на открытом тестовом стенде, при температуре в помещении около 30 градусов Цельсия, рассматриваемый экземпляр нагревался в пределах нормы, и превышений температуры выявлено не было. Температура рафического процессора составляла 50 градусов Цельсия, и вентилятор работал практически бесшумно (~1900 об/мин). Температура платы в целом находилась в районе 47 градусов Цельсия. Необходимо отметить, что R580 использует разделение частот и напряжений для 2D и 3D режимов. В "текстовом" режиме процессор работает на 499,5 МГц, память - 594 МГц.
Для прогрева графического ядра использовали HDR-тест Deep Freeze из состава 3D Mark 06, который прогоняли 15 раз подряд.
В результате максимальную температуру графического процессора зарегистрировали на уровне 89 градусов Цельсия, плата в целом разогрелась до 65 градусов. Турбина раскрутилась до 3400 об/мин, но в нашем случае шум от неё сливался с шумом от процессорного и корпусных вентиляторов, работающих на ~2500 об/мин, лишь незначительно выделяясь на их фоне. В 3D режиме частоты автоматически поднялись до 648 и 774 МГц для процессора и памяти соответственно, а напряжение на ядре с 1.2 до 1.45 V. Для разгона применяли утилиту RivaTuner версии - 2.0 RC 16. Для проверки стабильности достигнутых частот использовали Deep Freeze из тестового пакета 3D Mark 06, который прогоняли 15 раз подряд. Если температурные показатели вопреки слухам оказались вполне нормальными, то разгоном данный экземпляр нас не порадовал.
Разгон процессора составил всего 680 МГц, и повышение напряжения с помощью утилиты overclocker-x1k не помогло поднять частоту хотя бы до 700 МГц. Впрочем, это вполне предсказуемый результат, ведь R580 итак работает почти на пределе возможностей. Возможно, при использовании более эффективного охлаждения удастся добиться более высоких частот, но, к сожалению, у нас нет возможности это проверить. Память Samsung 1.1 нс. тоже огорчила, отказавшись работать на частотах, близких к своим номинальным возможностям (900 (1800) МГц), и разогнавшись только да 810 (1620) МГц. Вероятно, разгон памяти ограничен толстыми термопрокладками, плохо отводящими тепло, или же очень агрессивными таймингами. Повышение напряжения так же ни как не повлияло на частотный потенциал. Так как разгон столь небольшой, то и температурный режим практически не изменился - максимальная температура ядра выросла на ~1.5 градуса, самой платы - на 2 градуса. Что касается качества 2D картинки, то придраться не к чему. По доброй традиции - у ATI оно великолепное. И, как обычно, выкладываем оригинальный BIOS от Sapphire X1900 XTX, скачать который можно здесь.
Тестовая платформа.Аппаратное обеспечение:
Видеокарты:
Radeon X1800 GTO тестировались только в режиме CrossFire.
Программное обеспечение:
Тестовые приложения:
Настройки драйвера.
Тестирование.3DMark05. 3DMark05
В результатах 3DMark 05 нет ничего необычного, в разрешении 1024x768 Radeon X1900 XTX и Radeon X1800 GTO CrossFire идут практически вровень, и легко заметить, что производительность уперлась в относительно слабый процессор. В разрешении 1280x1024 между Radeon X1900 XTX и Radeon X1800 GTO CrossFire уже появляется заметная разница в производительности не в пользу последних.
3DMark06 3DMark06
В отличие от 3DMark 05, здесь несколько странная картина: в разрешении 1024x768 Radeon X1800 GTO CrossFire в общем зачете оказывается быстрее, выиграв в SM 2.0 тестах, но отстаёт в HDR/SM 3.0. Отставание Radeon X1900 XTX в SM 2.0 можно списать на меньшее количество TMU по сравнению с двумя X1800 GTO (16 против 12+12). Выигрыш в HDR/SM 3.0 дается Radeon X1900 XTX большим количеством блоков пиксельных процессоров. В разрешении 1280x1024 все встает на свои места - Radeon X1900 XTX лидирует во всех тестах за исключением второго SM 2.0 теста, где незначительно отстаёт.
Far Cry FarCry
Несмотря на то, что нами была использована версия игры FarCry 1.4 beta, заставить работать HDR + AA в режиме тестирования нам так и не удалось - утилита FarCry Benchmark 1.5 работала в нём некорректно. Отставание меньше одного FPS у Radeon X1900 XTX в разрешении 1024x768 можно отнести к погрешности измерений, так как производительность опять упирается в процессор. С ростом разрешения и при активации MSAA Radeon X1900 XTX уходит в отрыв, а при включенном HDR в разрешении 1280x1024 выигрыш составил уже 34%.
Quake 4 Quake 4
Здесь можно сказать только одно - производительность упирается в процессор, но в любом случае ~100 FPS при 16AF и 6X MSAA впечатляют. FEAR FEAR
В FEAR Radeon X1900 XTX раскрывает весь свой потенциал. Связка из двух Radeon X1800 GTO заметно медленнее, и разрыв в скорости достигает 38%. Описывая архитектуру R580 мы как раз говорили о целесообразности принятого ATI соотношения вычислительных и текстурных операций в пользу первых. Так вот, в данном графическом движке оно достигает 7 к 1, и 48 пиксельных процессоров на 16 текстурных приходятся как нельзя кстати. Radeon X1900 XTX позволяет комфортно играть с включёнными мягкими тенями (Soft Shadow) и MSAA 4X в разрешении 1024x768 или в разрешении 1280x960, но без MSAA. Half-Life 2 Lost Coast Half-Life 2 Lost Coast
Без активации MSAA производительность Radeon X1900 XTX упирается в недостаточно мощный процессор в обоих разрешениях, Radeon X1800 GTO CrossFire начинает отставать в разрешении 1280x1024.
При активации HDR преимущество Radeon X1900 XTX уже очевидно. Комфортные FPS сохраняются даже в разрешении 1280x1024 с активным MSAA 6X.
Call of Duty 2. Call of Duty 2
И вновь победа за Radeon X1900 XTX, но стоит заметить, что две Radeon X1800 GTO в режиме CrossFire в этой игре, не приносят какой либо пользы по сравнению с одиночной картой. Во-первых, игра использует около 400 МБ видеопамяти для хранения текстур, поэтому мы предполагаем, что отсутствие повышения производительности в режиме CrossFire может быть вызвано использованием режима рендеринга Alternate Frame Rendering (AFR). В этом режиме первый графический чип обсчитывает только нечетные кадры, второй только четные, поэтому 256 МБ памяти на один графический чип в данном случае недостаточно. Поэтому Radeon X1900 XTX показывает значительно более высокие FPS не только из-за архитектурных преимуществ, но еще и из-за вдвое большего объема памяти (512 МБ). Так же стоит отметить, что игра довольно процессоро-зависимая, и результаты Radeon X1900 XTX ограниченны 40 FPS.
ВыводыНесомненно, Radeon X1900 XTX является одним из самых быстрых графических ускорителей на сегодня. Результаты тестов явно продемонстрировали, что он позволяет комфортно запускать практически любую игру на максимальном качестве. Режим HDR+MSAA также вполне жизнеспособен на сегодняшний день и добавляет играм красочности. Что касается выбора между Radeon X1800 GTO CrossFire и Radeon X1900 XTX, то цифры говорят сами за себя, в большинстве случаев мы видим перевес в пользу последнего. Отметим, что процессор Athlon 64 4000+ не позволяет до конца раскрыть возможности как Radeon X1900 XTX, так и Radeon X1800 GTO CrossFire, но в тяжелых режимах зависимость от процессора снижается до минимума.
Заключение.Разрабатывая архитектуру R5XX, компания ATI смотрела в будущее и приняла инновационное решение - внедрить принцип масштабируемой производительности на практике. Теперь для наращивания мощности не требуется создавать новый чип с нуля, - достаточно увеличить количество пиксельных процессоров. Что и произошло с R580 и RV530, в которых относительно своих младших собратьев число пиксельных процессоров увеличилось в 3 раза. Конечно же, R580 является скорее прообразом архитектуры будущих графических процессоров и на современных приложениях далеко не везде может раскрыть заложенный в него потенциал, но в играх, где активно используются сложные математические инструкции, его плюсы видны уже сейчас. Прогресс не стоит на месте. Мы упомянули, что в конце третьего квартала выйдет обновленная версия R580, поддерживающая память GDDR4 и работающая на более высоких частотах - R580+, а к концу четвертого квартала ATI планирует выпустить совершенно новый чип - R600 поддерживающий DirectX 10 (WGF 2.0), SM 4.0 и обладающий унифицированной шейдерной архитектурой с 64 шейдерными блоками. Но для тех, кому нужна максимальная производительность уже сейчас, Radeon X1900 XT/XTX станет лучшим выбором. Эффективная реализации SM 3.0, поддержка режима HDR+MSAA, новое качество режима анизотропной фильтрации, поддержка технологии AVIVO - немаловажные конкурентные преимущества элитного ускорителя от ATI. Сложно предсказать, пойдут ли разработчики игр по пути увеличения математической сложности пиксельных шейдеров или поставят перед собой кардинально новую задачу. Но мы полагаем, что после выхода в свет таких "графических конструкторов" как Unreal Engine 3.0 и ему подобных, станет легче давать прогнозы о путях развития графических технологий на ближайшие несколько лет. В настоящее время мы имеем два различных подхода - с одной стороны ATI c разделенными текстурными и пиксельными блоками, которые связывает блок диспетчер, а с другой - NVIDIA с конвейером, замкнутым в виде "кольца". Только время покажет, чьё решение окажется вернее.
Спасибо компании Sapphire и лично Константину Мартыненко за предоставленную видеокарту Sapphire ATI Radeon X1900 XTX 512 МБ.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
На главную страницу |
Главная | Справочник | FAQ | Статьи | Загрузки | Контакты | Конференция
Логотипы, торговые марки и прочие зарегистрированные знаки принадлежат их правообладателям.
Copyright © 2001 - 2024, Radeon.ru Team.
Перепечатка материалов запрещена.
Алексей Нифатов (Sikambr)
Графики:
Вайцман Илья (Stranger_NN)
Фото:
Роман Евсеев (Dave Ripper)
Дмитрий Выборный (Schwanz)
Вёрстка:
Александр Ефимов (IdeaFix)