Sélectionner une page

Testé : AMD GCN - Présentation des Radeon HD 7970 et HD 7950

Le moment est venu pour nous de vous présenter enfin l'architecture AMD GCN (Graphics Core Next) et ses deux représentants les plus puissants, la Radeon HD 7970 et la Radeon HD 7950.

Logos d'articles GCN

Sur la HD 7950, nous avons immédiatement rendu hommage à deux d'entre elles, nous avons donc également eu l'occasion de tester CrossFireX, et nous avons également effectué des mesures réglées avec les deux cartes. Bien sûr, nous avons également envoyé un certain nombre de coureurs contre les deux nouveaux canons pour voir à quel point les cartes avaient accéléré par rapport aux GeForce et Radeon de la génération précédente. 


Avant d'aborder les participants et les tests, nous examinerons de plus près l'architecture GCN et reprendrons les fonctionnalités des HD 7970 et HD 7950.

 toutes les boîtes de cartes 2k

 Cœur graphique suivant

En mai 2007, AMD a présenté la carte graphique Radeon HD 2900 XT, qui était déjà construite sur une architecture de shader unifiée. Il s'est avéré que la conception présentait un certain nombre de défauts, mais les problèmes ont été presque complètement éliminés au moment de la série Radeon HD 4000, donnant à l'entreprise une place sur le marché des cartes graphiques de bureau. À ce stade, on pouvait voir que des changements radicaux étaient nécessaires maintenant. La série HD 6900 « Cayman » est considérée comme la première étape. Ici, les précédents processeurs superscalaires à 5 voies (VLIW5) ont été remplacés par des processeurs à 4 voies (VLIW4), et Cayman a été la première puce à gérer plusieurs flux d'instructions indépendants. L'autre grande innovation a été l'introduction des deux « moteurs graphiques », qui ont doublé la capacité de configuration du triangle - augmentant la puissance de tessellation - et le nombre de certains éléments (Rasterizer, Hierarchical Z, Tesselator). Il est devenu le sujet de notre prochain test de niveau aujourd'hui. Grâce à une architecture appelée Graphics Core Next (GCN), les tableaux de shaders fonctionnant avec les instructions VLIW utilisées jusqu'à présent sont devenus obsolètes, remplacés par des unités de calcul (CU). GCN a fait ses débuts dans la famille Radeon HD 7900 « Tahiti ».

19

Fait intéressant, mais sans surprise, les GPU Tahiti ont atteint des densités de transistors exceptionnelles grâce à la technologie de fabrication de bande passante 28 nm de TSMC - ils contiennent 365 milliards de transistors par 4,3 millimètres carrés. Une unité de calcul contient quatre SIMD et une unité scalaire. La Radeon HD 7970 "Tahiti XT" phare d'AMD fonctionne avec 32 CU actives, en supposant un total de 2048 16 processeurs de shader (quatre SIMD 64 voies, XNUMX ALU). Compte tenu du progrès des générations jusqu'à présent, cela ne semble pas être une valeur exceptionnelle à première vue, mais dans un souci d'efficacité et d'utilisation, nous tenons à souligner qu'il ne vaut pas la peine de tirer accidentellement des conclusions de grande envergure de cette un indicateur technique. Théoriquement, une CU peut fonctionner autant qu'une seule unité Cayman SIMD. Un problème majeur avec les générations précédentes est la dépendance aux données (les instructions successives dépendent les unes des autres des données), ce qui a entraîné une forte fluctuation de l'utilisation. L'architecture GCN est également un pas en avant dans ce domaine car elle élimine les dépendances précédemment rencontrées grâce au traitement de flux. Les avantages ne sont que des mots-clés : la planification, le débogage, l'estimation des performances attendues et le développement de pilotes sont également devenus radicalement plus simples et plus transparents. 

24

36Une CU contient non seulement quatre unités SIMD, mais possède également son propre planificateur, 340 Ko de stockage temporaire et un cluster de texturation. Cela résulte de la somme du registre vectoriel de 4 × 64 Ko, du partage de données local, qui fait également 64 Ko, du registre scalaire de 4 Ko et du cache de premier niveau d'une capacité de 16 Ko. Dans l'image ci-dessus, vous pouvez voir un autre composant qui mérite certainement une mention, à savoir la "Branch & Message Unit", qui joue un rôle dans un contrôle plus efficace des programmes.
Ayant les informations à ce jour, examinons à nouveau les paramètres clés du processeur graphique "Tahiti XT": 32 CU (2048 processeurs shader, 128 SIMD), 128 unités de texturation, 512 unités Load-Store et un total de 8,2 Mo de cache. La position de la fille était donc tout de suite différente, même si nous commencions à peine à nous « déshabiller ».

35L'extrémité avant

En termes de frontend, on peut voir des différences significatives par rapport à l'architecture de NVIDIA GF110. La gestion ne se fait fondamentalement pas au niveau des UC. Cette tâche est effectuée par le processeur de commande et le moteur de calcul asynchrone (ACE). La puce a été dotée de deux moteurs géométriques qui, en plus du Geometry-Assembler, le Vertex-Assembler, accueillent également des unités de tesselation de neuvième génération. La communication avec les UC est facilitée par Global Data Share (GDS), grâce auquel ces unités peuvent également partager des données entre elles. La section frontend contient deux rastériseurs - vous pouvez voir la disposition ci-dessous.

37

ROP et interface mémoire
AMD Tahiti contient 8 clusters ROP - à ce stade, nous avons trouvé une correspondance avec la puce Cayman. Chacun de ces « tableaux » contient quatre unités ROP et 16 échantillonneurs Z. Il est important de mentionner que chaque cluster a reçu son propre cache. Un autre changement majeur a eu lieu : il n'y a plus de connexion directe avec le contrôleur mémoire. Le mouvement vise à améliorer la flexibilité et la convivialité, ce que nous pouvons voir dans le contexte de Pitcairn… Les ROP peuvent écrire dans le cache L768 de 2 Ko, qui à son tour peut être lu par plusieurs unités. L'interface mémoire reçoit une image joyeuse. Les six contrôleurs de mémoire 64 bits ont une capacité totale de 384 bits. Nous voudrions juste ajouter un mot à cela. Pour terminer! La taille par défaut de la mémoire vidéo est de 3072 Mo, mais en théorie, 1536 Mo et 6 Go sont également possibles.

Nous espérons que nos lecteurs ne le prendront pas sous une mauvaise réputation, mais à ce stade, nous exprimerions notre opinion personnelle sur la zone backend. La relation entre Barts, qui a très bien fonctionné, et la puce Cayman, qui affiche des résultats relativement modestes, suggère que le « problème général » avec les puces AMD est la capacité ROP serrée. Aucun progrès n'a été fait sur Tahiti ici non plus, alors que des pages pourraient être écrites avec une certaine exagération sur d'autres nouveautés de la puce. Le rôle des ROP est particulièrement important pendant les jeux, pendant les tâches et les applications GPGPU, ils deviennent des seconds violons. Il est également certain que cette section consomme un grand nombre de transistors, ce qui bien entendu se reflète également dans la taille de la puce.

 

Jusqu'à présent, les améliorations d'AMD ont largement répondu aux besoins des joueurs. Maintenant, il y a eu un virage d'au moins 90 degrés et il est devenu très ciblé pour répondre aux besoins des professionnels, pour utiliser plus largement le GPU. Bien sûr, ce n'est pas un problème, car nous parlons essentiellement d'un niveau de performance très approximatif, qui résistera certainement aux épreuves des jeux modernes pendant quelques années. Selon les rumeurs, non seulement AMD, mais aussi NVIDIA traitent les ROP de manière étroite avec Kepler.

L'extension du bus mémoire était une étape louable. En fait, les concepteurs n'avaient guère le choix. Les horloges ne peuvent plus être augmentées de manière significative, mais la puce manque de données. À notre avis, ce mouvement à lui seul aurait pu augmenter les performances pendant les jeux jusqu'à 15%.

44DirectX 11.1 et PCI Express 3.0
La norme PCI-Express 3.0 augmente la vitesse de 16 Go/seconde à 32 Go/seconde, doublant ainsi le taux de transfert de données de PCIe 2.0. Les fabricants de cartes mères ont immédiatement « mordu sur le sujet », mais peu importe à quel point ils le souhaitent, le commutateur n'offre pas d'avantage significatif pour le moment. PCIe 3.0 est une arme importante d'un point de vue marketing, une norme obligatoire pour AMD et NVIDIA, et un autre «piège à argent» pour les utilisateurs.
DirectX 11.1 peut commencer sa conquête avec le système d'exploitation Windows suivant, qui contient des corrections et des optimisations mineures. Selon les documents officiels, nous pouvons nous attendre à une prise en charge native de la 3D stéréo et à une rastérisation plus efficace de la nouvelle API. Malheureusement, le point peut-être le plus intéressant, qui traite de la manière dont la flexibilité et la facilité d'utilisation généralisée du matériel graphique peuvent être améliorées, n'a pas été détaillé.

31

L'architecture Graphics-Core-Next ressemble globalement à ceci. Bien sûr, la puce sert non seulement les besoins des joueurs, mais a également de la place pour des tâches professionnelles. La performance de pointe de calcul théorique de Tahiti (pour les calculs en double précision) est de 947 GFLOP, quatre fois plus élevée pour les opérations à virgule flottante simple précision. De plus, les mémoires ont un support ECC et le GPU est bien familiarisé avec les API DirectCompute 11.1, OpenCL 1.2 C++ AMP.27 Nouvelles fonctionnalités : Zero-Core
En général, les grands prédateurs de niveau Radeon HD 7900 sont habitués à consommer comme un sujet tabou, mais les ingénieurs AMD manquent d'ingéniosité. L'idée est simple mais géniale, mais pas nouvelle. Si vous laissez votre ordinateur pendant une longue période, mais que pour une raison quelconque, vous ne voulez pas l'éteindre, vous souhaiterez peut-être laisser le moniteur en mode veille uniquement. Grâce à la technologie ZeroCore Power, avec l'écran éteint, l'ensemble du contrôleur graphique peut être mis hors tension et aucun refroidissement actif n'est requis sous cette forme. Les avantages sont convaincants : zéro bruit, 3 watts de consommation électrique. Ce sera un facteur insignifiant pour beaucoup, mais la procédure pour les systèmes Crossfire à quatre voies arrête les cartes vidéo non principales, réduisant considérablement votre facture d'électricité - bien que quiconque envisage un tel assemblage fasse peu pour améliorer l'efficacité énergétique.

21

20

Eyefinity 2.0
L'une des caractéristiques intéressantes de la nouvelle version est qu'elle vous permet de mener des conversations de conférence multi-écrans avec un audio multi-bandes. Le nom officiel de la procédure est Discrete Digital Multi-Point (DDM) Audio. La Radeon HD 7970 peut être connectée à trois écrans en même temps, qui peuvent recevoir un flux audio à huit canaux. Cela peut ne pas intéresser spécifiquement les utilisateurs à domicile, mais c'est un bon exemple du nombre de zones dans lesquelles le nouveau canon peut être utilisé. Le lecteur Catalyst évolue également, facilitant le positionnement du plateau par exemple, et permettant de compiler des résolutions personnalisées. Il convient de mentionner que le contenu 3D stéréo Full HD peut également être visualisé en mode Eyefinity. 

29

UVD et VCE
UVD 3.0 offre déjà une accélération matérielle pour le contenu DivX / Xvid, MPEG-4 Part 2 MVC, et le Video Code Engine (VCE) est pratiquement l'équivalent AMD d'Intel Quick Sync Video. VCE est un matériel autonome et est uniquement conçu pour accélérer le transcodage des vidéos H.264. Le moteur est plus lent que les processeurs shader du processeur graphique, mais beaucoup plus économe en énergie. Deux modes sont disponibles pour les utilisateurs. Au début, seul le VCE fonctionne, ce qui en soi est plus rapide que la plupart des CPU. Dans ce cas, nous ne connaîtrons pas de ralentissement, nous pouvons charger la carte vidéo ou l'unité centrale sans aucun problème. La deuxième option est le mode hybride. Les unités arithmétiques et logiques du VCE et du GPU se lancent ensemble dans la tâche. Ce « mariage » a évidemment un bon effet sur la vitesse d'encodage, mais dans ce cas, ne vous étonnez pas si votre jeu préféré passe en mode « diaporama ».

32

Maintenant que nous connaissons la théorie et les chiffres, familiarisons-nous avec les trois modèles GCN du test !

A propos de l'auteur