Välj Sida

Testade det: AMD GCN - Introduktion till Radeon HD 7970 och HD 7950

Det är dags för oss att äntligen introducera AMD GCN (Graphics Core Next) -arkitekturen och dess två mest kraftfulla representanter, Radeon HD 7970 och Radeon HD 7950.

GCN-artikellogotyper

Av HD 7950 hyllade vi omedelbart två av dem, så vi fick också möjlighet att testa CrossFireX, och vi utförde också inställda mätningar med båda korten. Naturligtvis skickade vi också ett antal förare mot de två nya kanonerna för att se hur mycket korten hade accelererat jämfört med föregående generation GeForces och Radeons. 


Innan vi går in i deltagarna och testerna kommer vi att titta närmare på GCN-arkitekturen och ta över funktionerna i HD 7970 och HD 7950.

 alla kortlådor 2k

 Graphics Core Nästa

I maj 2007 introducerade AMD Radeon HD 2900 XT-grafikkortet, som redan byggdes på en enhetlig skuggarkitektur. Som det visade sig hade designen ett antal brister, men problemen eliminerades nästan helt vid tiden för Radeon HD 4000-serien, vilket gav företaget fotfäste på marknaden för grafikkort för stationära datorer. Vid denna tidpunkt kunde man se att radikala förändringar behövdes nu. HD 6900-serien "Cayman" anses vara det första steget. Här har de tidigare 5-vägs superscalar-processorerna (VLIW5) ersatts av 4-vägsprocessorerna (VLIW4), och Cayman var det första chipet som hanterade flera oberoende instruktionsströmmar. Den andra stora innovationen var introduktionen av två "grafikmotorer" som fördubblade triangelns inställningskapacitet - ökande tesselleringskraft - och antalet vissa element (Rasterizer, Hierarchical Z, Tessellator). Han blev föremål för vårt nästa nivå test idag. Tack vare en arkitektur som heter Graphics Core Next (GCN) har skuggmatriserna som fungerar med de VLIW-instruktioner som hittills använts blivit föråldrade och ersatts med så kallade Compute Units (CU). GCN var den första som debuterade i familjen Radeon HD 7900 “Tahiti”.

19 m

Intressant, men inte förvånande, har Tahiti GPU: er uppnått enastående transistortäthet tack vare TSMC: s 28nm tillverkningsteknik för bandbredd - de innehåller 365 miljarder transistorer per 4,3 kvadratmillimeter. En beräkningsenhet innehåller fyra SIMD-filer och en skalarenhet. AMDs flaggskepp Radeon HD 7970 "Tahiti XT" fungerar med 32 aktiva CU: er, förutsatt totalt 2048 skuggprocessorer (fyra 16-vägs SIMD, 64 ALU). Med tanke på generationernas framsteg hittills verkar detta inte vara ett enastående värde vid första anblicken, men för bättre effektivitet och användning vill vi påpeka att det inte är värt att av misstag dra långtgående slutsatser från detta en teknisk indikator. Teoretiskt kan en CU utföra så mycket som en enda Cayman SIMD-enhet. Ett stort problem med tidigare generationer är databeroende (efterföljande instruktioner beror på varandra på data), vilket har gjort att användningen fluktuerat kraftigt. GCN-arkitekturen är också ett steg framåt på detta område eftersom det eliminerar tidigare upplevda beroenden genom strömbehandling. Fördelarna finns bara i nyckelord: schemaläggning, felsökning, uppskattning av förväntad prestanda och förarutveckling har också blivit radikalt enklare och mer transparent. 

24

36 mInte bara innehåller en CU fyra SIMD-enheter, men den har också sin egen schemaläggare, 340 kB buffertlagring och ett texturkluster. Detta är summan av 4 × 64 KB-vektorregistret, 64 KB Local Data Share, 4 KB-skalarregistret och 16 KB-kapaciteten på första nivån. Bilden ovan visar en annan komponent som definitivt är värt att nämna, och det är den så kallade “Branch & Message Unit”, som spelar en roll för effektivare programstyrning.
Med informationen hittills kan vi granska nyckelparametrarna för grafikprocessorn “Tahiti XT” igen: 32 CU (2048 skuggprocessorer, 128 SIMD: er), 128 textureringsenheter, 512 Load-Store-enheter och totalt 8,2 MB cache. Så flickans ställning var annorlunda direkt, även om vi precis började "klä av oss".

35 mFront

När det gäller frontend kan vi se betydande skillnader jämfört med NVIDIA GF110s arkitektur. Hantering sker i princip inte på CU-nivå. Denna uppgift utförs av Command Processor och Asynchronous Compute Engine (ACE). Chipet har fått två geometriska motorer som, förutom Geometry-Assembler, Vertex-Assembler, också rymmer nionde generationens tessellatorenheter. Kommunikation med CU underlättas av Global Data Share (GDS), genom vilken dessa enheter också kan dela data med varandra. Frontend-sektionen innehåller två rasterizers - du kan se layouten nedan.

37

ROP och minnesgränssnitt
AMD Tahiti innehåller 8 ROP-kluster - vid denna tidpunkt hittade vi en matchning med Cayman-chipet. Varje sådan ”array” innehåller fyra ROP-enheter och 16 Z-samplare. Det är viktigt att nämna att varje kluster fick sin egen cache. En annan stor förändring har ägt rum: det finns inte längre en direkt anslutning till minneskontrollern. Flytten är avsedd att förbättra flexibilitet och användbarhet, vilket vi kan se i samband med Pitcairn ... ROP kan skriva till 768 KB L2-cache, som i sin tur kan läsas av flera enheter. Minnesgränssnittet får en glad bild. De sex 64-bitars minneskontrollerna har en total kapacitet på 384 bitar. Vi skulle bara lägga till ett ord till detta. Till sist! Standardminnet på videominnet är 3072 MB, men i teorin är 1536 MB och 6 GB också möjliga.

Vi hoppas att våra läsare inte tar det i ett dåligt namn, men vid denna tidpunkt skulle vi uttrycka vår personliga åsikt om backendområdet. Förhållandet mellan Barts, som har fungerat riktigt bra, och Cayman-chipet, som visar relativt blygsamma resultat, antyder att det "allmänna problemet" med AMD-chips är den snäva ROP-kapaciteten. Ingen framsteg har gjorts på Tahiti här heller, medan sidor fortfarande kunde skrivas om andra nyheter med chipet med viss överdrift. ROP: s roll är särskilt framträdande under spelen, under GPGPU-uppgifter och applikationer blir de andra violinister. Det är också säkert att detta avsnitt förbrukar ett stort antal transistorer, vilket naturligtvis också återspeglas i chipets storlek.

 

AMDs förbättringar hittills har till stor del tjänat spelarnas behov. Nu har det gått en sväng på minst 90 grader och det har blivit ett starkt vägskäl för att tillgodose professionella behov, att använda GPU i större utsträckning. Naturligtvis är detta inte ett problem, eftersom vi i princip talar om en mycket grov prestanda, som säkert kommer att klara moderna spel i några år. Enligt rykten behandlar inte bara AMD utan även NVIDIA ROPs snävt med Kepler.

Att utvidga minnesbussen var ett lovvärt steg. Faktum är att designarna hade lite val. Klockorna kan inte längre ökas avsevärt, men chipet svälter efter data. Enligt vår uppfattning kunde detta drag ensamt ha ökat prestanda under spel med upp till 15 procent.

44DirectX 11.1 och PCI Express 3.0
PCI-Express 3.0-standarden ökar hastigheten från 16 GB / sekund till 32 GB / sekund, vilket fördubblar dataöverföringshastigheten för PCIe 2.0. Moderkortstillverkare "bitade omedelbart om ämnet", men oavsett hur mycket de vill, erbjuder omkopplaren ingen betydande fördel just nu. PCIe 3.0 är ett viktigt vapen ur ett marknadsföringsperspektiv, en obligatorisk standard för AMD och NVIDIA och en annan ”pengafälla” för användare.
DirectX 11.1 kan starta erövringen med följande Windowsoperativsystem, som innehåller mindre korrigeringar och optimeringar. Enligt officiellt material kan vi förvänta oss stereo 3D-stöd och effektivare rasterisering från det nya API: et. Tyvärr har den kanske mest intressanta punkten, som diskuterar hur flexibilitet och den utbredda användbarheten för grafikhårdvara kan förbättras, inte varit detaljerad.

31 m

Grafiken-Core-Next-arkitekturen ser i stort sett ut så här. Naturligtvis tjänar chipet inte bara spelarnas behov utan har också utrymme för professionella uppgifter. Tahitis teoretiska beräknings-topprestanda (för dubbelprecisionsberäkningar) är 947 GFLOP, fyra gånger högre för operationer med en enda punkt med flytande punkt. Dessutom har minnena ECC-stöd och GPU är väl bekant med DirectCompute 11.1, OpenCL 1.2 C ++ AMP API.27 Nya funktioner: Zero-Core
I allmänhet är Radeon HD 7900-nivå rovdjur vana vid att konsumera som ett tabubelagt ämne, men AMD-ingenjörer saknar uppfinningsrikedom. Idén är enkel men bra men inte ny. Om du lämnar din dator länge men av någon anledning inte vill stänga av den kanske du vill lämna monitorn i standby-läge. Tack vare ZeroCore Power-teknik, med skärmen avstängd, kan hela grafikkontrollen kopplas från och ingen aktiv kylning krävs i denna form. Fördelarna är övertygande: noll ljud, 3 watt strömförbrukning. Det kommer att vara en obetydlig faktor för många, men proceduren för fyrvägs Crossfire-system stänger av icke-primära grafikkort, vilket avsevärt minskar din elräkning - även om någon som tänker på en sådan enhet gör lite för att ta itu med energieffektivitet.

21

20

Eyefinity 2.0
En av de intressanta funktionerna i den nya versionen är att den låter dig föra konferenssamtal med flera skärmar med multibandsljud. Procedurens officiella namn är Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 kan anslutas till tre skärmar samtidigt, som kan ta emot en åtta-kanalig ljudström. Detta kanske inte är av intresse specifikt för hemanvändare, men det är ett bra exempel på hur många områden den nya kanonen kan användas i. Catalyst-enheten utvecklas också, vilket gör det lättare att till exempel placera facket och låta dig sammanställa anpassade upplösningar. Det är värt att nämna att stereo 3D-innehåll i Full HD också kan visas i Eyefinity-läge. 

29 m

UVD och VCE
UVD 3.0 erbjuder redan hårdvaruacceleration för DivX / Xvid, MPEG-4 del 2 MVC-innehåll, och Video Code Engine (VCE) är praktiskt taget AMD-motsvarigheten till Intel Quick Sync Video. VCE är fristående hårdvara och är endast utformad för att påskynda omkodningen av H.264-videor. Motorn är långsammare än skuggprocessorerna i grafikprocessorn, men mycket mer energieffektiv. Det finns två lägen tillgängliga för användarna. I det första fungerar bara VCE, vilket i sig är snabbare än de flesta processorer. I det här fallet upplever vi ingen avmattning, vi kan ladda grafikkortet eller centralenheten utan problem. Det andra alternativet är hybridläge. De aritmetiska logiska enheterna i VCE och GPU hoppar till uppgiften tillsammans. Detta "äktenskap" har uppenbarligen en bra effekt på kodningshastigheten, men i det fallet, bli inte förvånad om ditt favoritspel växlar till "bildspel" -läge.

32

Nu när vi är medvetna om teorin och siffrorna, låt oss bekanta oss med de tre GCN-modellerna i testet!

Om författaren