Sélectionner une page

Nous avons testé le Bulldozer : FX-8150 et trois cartes mères 990FX sur banc d'essai

Nous avons testé le Bulldozer : FX-8150 et trois cartes mères 990FX sur banc d'essai

La technologie

Les puces sont fabriquées sur le nœud SHP 32 nm de GlobalFoundries. Pour les bulldozers, le SOI introduit précédemment a été associé au HKMG (High-K Metal Gate) d'Intel, qui peut aider à lutter contre le courant de fuite. L'architecture est bien conçue pour atteindre des vitesses d'horloge élevées (« Speed ​​racer »), ce qui rend la gamme de modèles susceptible d'être complètement dépourvue de produits inférieurs à 3 GHz. Toutes les unités centrales de l'ancienne langue sont en Black Edition, elles ne sont donc plus spécifiquement marquées.

À ce stade, faisons un petit détour et regardons également l'envers de la médaille. Le processeur quadricœur Phenom II le plus rapide tourne à 3,7 GHz, et le 1100T basé sur la puce Thuban à six cœurs tourne à 3,3 GHz. En comparaison, le tir de base de l'AMD FX-32 en 8150 nm est presque décevant et seuls les 4,2 niveaux de Turbo Core 10 GHz sont acceptables, ce qui promet immédiatement un surplus de puissance de 15 à 3,5 % (non). XbitLabs a ventilé il y a un an que le Bulldozer franchissait la cadence des XNUMX GHz, qui s'est rapprochée, mais malgré une série de dérapages. Il semble correct de supposer qu'il existe encore de sérieux problèmes avec la production et la sortie du nouveau canon, ce qui a un impact significatif sur les performances.

amd_bulldozer_six-speed
Le deuxième entier n'augmente la taille du module que de 12 %. [+]

Sur la base de nombreuses années d'expérience, même un concept de base est né, basé sur ce qui suit : les unités centrales effectuent des opérations à point fixe à un taux moyen de plus de 80 %. De là, on peut voir que les calculs en virgule flottante sont beaucoup moins présents dans la vie des « mille-pattes ». Dans la conception, par conséquent, deux cœurs entiers sont connectés, qui ont leur propre cache de premier niveau, mais doivent déjà partager le cache de deuxième niveau et l'unité à virgule flottante. AMD a nommé l'unité en tant que module.

amd_bulldozer_one_module
Un module [+]

Selon les mesures internes, le deuxième entier augmente fondamentalement la taille du module dans une mesure négligeable, en revanche, il peut idéalement entraîner une augmentation des performances allant jusqu'à 80%. La partie du cache primaire responsable des données est directement connectée aux processeurs (taille 16 Ko, délai 4 horloge), mais le cache de 64 Ko destiné à stocker les instructions est déjà partagé entre les intégrales.

1_module_quoi_qui
Creuser plus profondément [+]

D'après les résultats des tests, le cache de données L1 est non seulement trop petit, mais même lent, ce qui n'est pas une très bonne combinaison. La taille du stockage de second niveau partagé au sein du module est satisfaisante, mais sa latence est élevée, 25-27 cycles. Il est facile d'imaginer qu'un cache L1 plus grand et un L2 plus rapide (12-15 cycles) amélioreraient les performances du processeur de 10-20%.

Sans surprise, atteindre les 8 Mo L3 ne se fait pas non plus à la vitesse de la lumière (65 cycles). En résumé, le système de cache Bulldozer ne sera pas la huitième merveille du monde.

instructions
Dans le labyrinthe du jeu d'instructions [+]

Bulldozer dispose actuellement du plus large éventail de jeux d'instructions pris en charge : MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ et bien sûr l'extension 64 bits. Des deux innovations (FMA4, XOP), FMA4 est d'une grande importance sur le marché HPC, et XOP offre un léger avantage sur les applications multimédia. À notre connaissance, la dernière version de x264 prend déjà en charge les nouveaux jeux d'instructions. 3DNow obsolète ! le support a été interrompu, je pense que cela ne provoque pas de nombreuses nuits blanches pour les lecteurs.

Il est connu d'utiliser Intel VT pour accéder à la mémoire virtuelle x86. IOMMU augmente considérablement les performances de virtualisation du système, cependant, étonnamment, les solutions haut de gamme d'Intel (Core i5-2600K, i7-2600K) ne prennent pas en charge cette technologie et ce «cercle noir» inclut les solutions Sandy Bridge E actuelles. Encore une fois, un service supplémentaire par rapport à la concurrence directe, même si son utilité pour l'utilisateur moyen est discutable.

40
Turbo Core en théorie [+]

Le Turbo Core a également été amélioré, fonctionnant avec plus de portes d'horloge et s'adaptant encore mieux aux différents niveaux d'utilisation. Si tous les cœurs sont actifs mais que les unités à virgule flottante ne sont pas actuellement utilisées, l'horloge Turbo Core 2.0 prendra effet. La procédure modifie dynamiquement les signaux d'horloge des cœurs en fonction de la charge, les ressources inactives, les modules et les composants à l'intérieur du module peuvent être déconnectés, il n'y aurait donc aucune plainte dans ce domaine à l'avant du boîtier. Malheureusement, le côté logiciel de la chose vous jette à fond dans la soupe.

en pratique
Mise en œuvre pratique [+]

Le planificateur de Windows 7 n'est, pour le moins, le moyen le plus efficace d'allouer des tâches, car il alterne fréquemment l'allocation des tâches entre les cœurs. La prochaine version du système d'exploitation résoudra le problème et un correctif sera bientôt apporté à ce système, donc - dans les cas extrêmes, cela peut être de 15 à 25 % - nous obtiendrons bientôt 2 à 10 % de performances en plus. Un autre très bel avantage sera que la consommation au ralenti peut être réduite de 4 à 5 watts car les modules peuvent rester "à la volée" plus longtemps.

bulldozerwin8_and_bf3
"Ne traitez pas vos dents comme un cadeau" [+]

bulldozerbf3betafx

La "transformation" pendant Battlefield 3 [+]

Battlefield 3 montre aussi bien à quel point une certaine optimisation aide un processeur. Dans ce jeu, le processeur de la série FX actuellement le plus puissant peut atteindre les performances du Core i7-2600k.

Les processeurs de la série FX sont livrés avec un boîtier Socket AM3 + et sont logés dans les cartes mères chipset de la série 9 d'AMD. L'orientation est également facilitée par la couleur de la douille, qui est majoritairement noire. Pour implémenter la plate-forme Scorpius infiniment sonique, nous avons besoin d'un processeur de la série FX, d'une carte mère avec un chipset de la série 9 et d'une carte vidéo de la série Radeon HD 6000. Le Bulldozer dispose d'un contrôleur de mémoire DDR1866 double canal qui prend en charge les modules de 3 MHz.

phénomu_folulk

AMD FX-8150 avec un Phenom II X4 970 BE - vu d'en haut [+]

En conclusion, nous aimerions ajouter un autre ajout intéressant. Le fait que le travail effectué par les processeurs à base de Bulldozer par horloge (instructions par cycle) ait quelque peu diminué en moyenne par rapport à son prédécesseur a suscité de sérieuses controverses. Certains envisagent immédiatement la chute de l'architecture, d'autres énumèrent des exemples similaires du passé. À cet égard, comme toujours, bornons-nous aux faits. Les programmeurs d'aujourd'hui réalisent de plus en plus les avantages de l'optimisation multicœur. Avec un moteur 8 cylindres qui offre fondamentalement de bonnes performances, nous pensons rarement à ce qu'il peut faire avec 1 cylindre.

phénoménal

AMD FX-8150 avec un Phenom II X4 970 BE - bas [+]

L'exemple n'est pas le meilleur, mais il peut éclairer le sujet. Nous ne prétendons pas utiliser de manière optimale huit cœurs entiers de manière dense, mais Turbo Core 2.0 cible la fréquence la plus élevée possible (4,2 GHz) dans ce cas. Ce qui n'est disponible que dans le cas du K10.5 au prix de la « sueur sanglante » est considéré ici comme une « horloge de base ». Il ne fait également aucun doute que la mise en œuvre d'AVX, FMA et XOP a coûté un ensemble important de transistors. Les bases de l'architecture sont utilisées dans plusieurs segments (serveur, PC de bureau), donc cela semblait être une étape obligatoire, mais aujourd'hui on voit encore moins ses avantages (surtout dans un environnement de bureau).

socket_2k

Allongé au lit [+]

Idéalement (FMA4 + AVX), le Bulldozer se sent vraiment très élémentaire, offre des performances surprenantes et met tout de suite les choses sous un autre jour. Selon les mesures de l'allemand HT4U, lors de l'application de rendu C-Ray 1.1, l'AMD FX-8150 fonctionne dans les mêmes 15 secondes que l'Intel Core i7 990X. C'est exactement la moitié du temps qu'un processeur AMD Phenom II X6 1100T prenait pour faire le travail. Notons entre parenthèses que nous avons également pesé l'autre extrême, le Super PI.

A propos de l'auteur