Основные отличия от предыдущих видеопроцессоров.

Организация графического процессора.

1) Из приведенной выше схемы видно, что главным отличием от предыдущих GPU стало разделение на логические блоки, работающие параллельно, а не последовательно.
8 вершинных процессоров (128-битный векторный и 32-битный скалярный блоки) теперь полностью поддерживают Shader Model 3.0 и, после растеризации, передают данные «министру-распорядителю» нового GPU – Ultra Threading Dispatch Processor (мы осмелились назвать его интеллектуальным процессором распределения данных). Он внимательно «следит» за 512 (!) квадами и свободными ресурсами, отправляя квады по образовавшимся вакансиям. Причем распределяет их равномерно на четыре ядра обработки, каждое из которых одновременно обрабатывает 4 пиксельных шейдера. Либо сразу отправляет квад в текстурный блок. Из текстурного блока и из ядер обработки данные поступают в регистры общего назначения, откуда могут быть извлечены в любой момент. Параллельно квады могут попасть в регистр минуя вышеописанные стадии (например, если движок пиксельных шейдеров перегружен), и «встать в очередь». Однако, как только произойдет высвобождение какого-то из ресурсов – квад будет немедленно задействован в процесс. Такая сложная логика потребовала 128-битных операций с плавающей точкой от Ultra Threading Dispatch Processor-а. Думаем, что, если технология оправдает себя, то разрядность его со временем возрастет ;).  Преимущество такой технологии очевидно – скажем «нет» простоям! Все компоненты такой системы постоянно трудятся над квадами.

2) возможность обработки пиксельным процессором 4 пикселей на ядро позволяет ускорить сам процесс. При этом качество изображения ни только не страдает, а даже улучшается.

3) При таком построении уменьшается длина логических ветвлений и можно быстрее предсказать следующий процесс, с меньшим количеством ошибок.

Организация памяти.

Новая кольцевая внутренняя шина памяти позволила:

1) значительно удешевить процесс за счет упрощения разводки – как следствие стала 512-битной (два «кольца по 256 бит).

2) меньше подвержена нагреву – возможность применения не только GDDR3, но и GDDR4, а так же хороший разгонный потенциал.

Кроме того, логику доступа теперь можно программировать.

Новые ассоциативные кэши (все, не только памяти, а текстурный, цветовой, z-буфера и т.д.) позволяет делать выборки из всех доступных сегментов памяти.