Auf zu 10 GHz und mehr

Erinnert sich noch jemand an den Pentium 4? Als er vorgestellt wurde, betonte Intel, dass sein gesamtes Design auf hohe Taktfrequenzen ausgelegt sei. Er hatte eine enorm lange Pipeline, sprich er dekodierte einen Befehl in vielen Takten. er hatte nur wenige Funktionseinheiten, diese sollten aber die Mikro-Ops schnell abarbeiten. Und zuerst sah auch alles gut aus. In zwei Jahren wurde der Takt von 1,2 auf 3,2 GHz gesteigert. Intel präsentierte auf Präsentationen auch Prototypen die mit 5 und 7 GHz liefen (zumindest während der Vorführung). Doch bei 3,8 GHz war Schluss. Was den Träumen von vielen Gigahertz ein Ende bereitete, waren die Leckströme, die bei jedem Umschalten frei wurden und die exponentiell mit der Taktfrequenz anstiegen. Bei einer TDP (Thermal Design Power) von 125 Watt war Schluss. Um die dabei entstehende Abwärme abzuführen, brauchte man sehr große Kühler. Größere waren mechanisch (Zug an dem meist senkrecht aufgehängten Motherboard) wie auch vom verfügbaren Platz nicht in einem normalen PC Gehäuse unterzubringen.

Intel lernte dazu. Das nächste CPU Design basierte auf einem Notebookprozessor. 2005 kam dann eine Kehrtwende: anstatt immer höhere Takte, sollten die PC schneller werden indem es mehr Kerne, also im Prinzip mehr Prozessoren pro CPU gab. Der Takt sollte dagegen bei 2-3 GHz stehen bleiben. Anders als bei mehreren Funktionseinheiten, die es schon vorher gab, sind mehrere Kerne dem Betriebssystem als einzelne Prozessoren bekannt, was es erlaubt, die Prozesse besser aufzuteilen. Alle zwei Jahre, so versprach Intel, würde sich die Zahl der Kerne pro Prozessor verdoppeln. Doch wir alle wissen, dass es nicht so kam. wäre Intels Vorhersage eingetroffen, so gäbe es 2007 die ersten 4-Kerner, 2009 dann 8-Kerner, 2011 16-Kerner und dieses Jahr müssten es 32 Kerne pro Prozessor sein. In der Realität dominieren im PC-Segment zwei und Vierkerner. Bei Serverprozessoren gibt es auch 8 Kerne.

Der Grund ist, das zwei Kerne als Vorteil gesehen wurde, der „Abschied von der Sanduhr“. ein Programm konnte den PC nicht mehr lahmlegen. Doch meistens ist es auch nur ein Programm. Browser können zwar pro Tab einen Prozess anlegen, doch wie lange ist dieser aktiv um Daten zu verarbeiten? Selbst Gamer, eine Kundschaft die früher Unsummen für leicht übertaktete „Exteme-Editions“ von Intels Prozessoren zahlte, machten nicht mit. Für Gamer-PC werden nach wie vor Prozessoren mit zwei Kernen empfohlen, weil diese etwas höhere Taktfrequenzen haben und Spiele selten mehr als zwei Kerne effektiv nutzen.

Intel versuchte, nachdem mehr Kerne nicht im Markt ankamen, die Geschwindigkeit anders zu steigern – durch größere Caches, neue Befehle, wie die AVX Erweiterung mit Vektoroperationen oder die Möglichkeit wenn nur ein oder zwei Prozesse viel Leistung brauchen diese mit einer höheren Taktfrequenz zu betreiben, während die anderen Kerne schlafen.

Der Verkaufserfolg des Xeon Phi, einer Steckkarte die als „Coprozessor“ beworben wird und aus einer CPU mit 60 P54C Kernen besteht (das ist das Design des Pentium) scheint Intel zu einer erneuten Kehrtwende veranlasst zu haben. Beginnend ab 2014 wird es Rechner mit sehr vielen CPU Kernen, reinen Fleißkommabefehlen, ohne die Erweiterungen SSE, SSE2,SSE3 und AVX geben (die Befehle wurden in Software kaum genutzt, weil z.B. AVX weder bei AMD Prozessoren und bei den Intel Prozessoren nur bei der zweiten Generation der ICore i5 und I7 vorhanden sind. Kein Hersteller entwickelt ein Programm, das nicht auf einem Teil der Kunden läuft und so massive Supportprobleme verursacht). Anders als die bisherigen Konzepte teilen sie sich keine Caches, jeder hat einen eigenen Cache und einen eigenen Taktgenerator.

Da inzwischen Prozessoren mit einer TDP von nur 15 bis 35 Watt verfügbar sind, kann so der Takt gesteigert werden, denn ein weiterer Punkt kam noch hinzu. Bei einer Chipgröße von typisch etwa 10-15 mm Kantenlänge, begrenzt die Die-Größe die Taktfrequenz. elektrische Signale legen in Leitungen maximal 200.000 km/s zurück. Liegen auf dem Weg Transistoren, die erst schalten müssen, so sinkt die Geschwindigkeit noch weiter ab. In 4 GHz legt so ein Signal maximal 50 mm zurück. Da die Leitungen selten gerade verlaufen und noch die Schaltzeit der Transistoren hinzukommt ist dies heute die maximale Taktfrequenz eines Chips. Alle Transistoren eines Chips müssen im selben Takt arbeiten, sonst wären die Ausgangssignale nicht mehr deterministisch, eines könnte von einem Takt stammen, das andere schon vom nächsten wenn das Signal erst durch den ganzen Chip bis zur Funktionseinheit laufen musste.

4 Kerne mit eigenem Cache und eigenem Taktgenerator haben nur noch Abmessungen von 5-7,5 mm pro Kern, sind also halb so groß. Daher ist bei vier Kernen die entkoppelt sind, eine doppelt so hohe Taktfrequenz möglich. Dies bleibt so, die Taktfrequenz steigt mit der Quadratwurzel der Kernzahl. 8 Kerne erlauben den Faktor 2,8, 16 schon den Fraktur 4. Allerdings ist ein solcher Chip dann nicht um diesen Faktor schneller, denn die Caches sind nun klein (nur 8 kB für Daten- und Code) und es gibt nur eine ALU und FPU pro Chip, die x86 Code und keine µ-Ops verarbeitet.

Intel plant zwei Linien Die erste „Home“ genannt hat maximal 32 Kerne (maximale Taktfrequenz 19 GHz), die zweite Edition „Premium“ anfangs 64, später sollen es bis zu 256 sein. Die Namensgebung lehnt sich nicht per Zufall an Windows an. Windows 8 unterstützt in den Home Versionen maximal 32 Kerne, in den Professional und Ultimate Versionen maximal 256 Kerne..

Trotzdem bleibt das Problem, das Software heute weder 32, noch 256 Kerne ausnutzt, warum bietet Intel daher nicht kleinere CPU’s mit 4 Kernen an die auch diese hohe Taktrate erreichen? Nun das liegt daran, dass noch Prozessor und Motherboard separat verkauft werden. Auf den kleinen Die für nur wenige Kerne können dann nicht mehr alle Anschlüsse verbunden werden. Lötet man die Chips direkt in die Platine ein, so sind die Signalpins viel enger setzbar und dann wäre dies möglich. Intel hat dies auch vor, denn die hochgetakteten Prozessoren wurden nicht für den PC und Servermarkt entworfen, wo Intel schon einen Marktanteil von 90% hat. Sie sollen in den kleineren Versionen (2-8 Kerne) in Smartphones und Tabletts eingesetzt werden. Hier konnte Intel den stromsparenden ARM Prozessoren bisher nichts gleichwertiges entgegensetzen. Die neuen Prozessoren sind stromsparender weil jeder P54C Kern nur 3,3 Millionen Transistoren, ein QuadCore i7 dagegen 730-774 Millionen. Dadurch sinkt der Stromverbrauch ab, auch wenn der durch den höheren Takt wieder ansteigt ist er bei wenigen CPU’s immer noch geringer als bei den Mobil CPU’s die derzeit von Intel verfügbar sind.

Auf jeden Fall gibt’s endlich mal wider eine Innovation die einen PC Neukauf nötig macht – vielleicht auch ein Grund für die neue CPU Linie. Es dürfte auch den Absatz von Windows 8 fördern, denn bei Windows 7 ist bei maximal 16 Cores Schluss.

3 thoughts on “Auf zu 10 GHz und mehr

  1. Leckströme haben aber nichts mit der Taktfrequenz zu tun, sie entstehen weil Isolatoren keinen unendlich hohen Widerstand haben.
    Was du meinst, sind die durch Schaltkapazitäten verursachte Ströme. Jedes Bauteil, jede Leitung hat eine gewisse (meist unerwünschte) Kapazität. Dies muss bei jedem Signalwechsel umgeladen werden, was einen kurzen Stromimpuls bewirkt. Das muss dann bei höheren Taktfrequenzen öfter passieren und bedeutet einen höheren Durchschnittsstrom. Diese Ströme (und die damit verbundene Wärmeentwicklung) sind damit direkt proportional zur Taktfrequenz.

    Dazu kommt noch ein anderer (von Übertaktern gern verwendeter) Effekt: Bei höheren Betriebsspannungen steigt die Leitfähigkeit des Halbleitermaterials, die Schaltkapazitäten werden schneller umgeladen. Dadurch lassen sich höhere Taktfrequenzen erreichen. Der Nachteil dabei: Die Verlustleistung steigt im Quadrat zur Spannung. Dazu noch die Wärmeentwicklung durch die höhere Taktfrequenz, da wird die Kühlung schnell problematisch. (Bei Rekordversuchen ist Kühlung mit flüssigem Stickstoff üblich.)

    Andersrum kann man durch eine geringere Spannung die Verlustleistung drastisch verringern, was bei Handyprozessoren auch üblich ist. Dadurch sind diese aber auch deutlich langsamer.

  2. Hätte man die dem Takten so fort gefahren, hätte man Energieabstrahlungen erreicht, die man sonst nur vor Kernreaktoren kennt, also W/mm2. Schon heute produziert ein Chip mehr als eine Kochplatte.

    Ich weiss gar nicht was so Satire an deinem Beitrag ist. Es wird ziemlich oft Unsinn angekündigt in der Branche.

  3. Hmm … ich denke das kann man noch ein wenig „richtiger“ darstellen:

    Es gibt zwei Arten von Verlustleistung bei CMOS:

    Dynamische und statische

    Die statische Verlustleistung besteht bei CMOS praktisch vollständig aus denn Leckströmen (english: leakage). Die ergeben sich daraus dass die transistoren nie ganz zu sind. Diese leakage ist erst seit einigen Jahren ein Problem geworden da sie exponentiell mit sinkenden strukturgroessen steigt. Sie ist bei der power heutzutage der dominierende faktor und erfordert neue techniken zum stromsparen wie power domains und dynamisches kontrollieren der versorgungsspannung zusätzlich zum kontrollieren der clock (was logischerweise beides auf kurzfristiges optimieren von power auf kosten Performance funktioniert, der leakage ist also wie eine Schallmauer die wohl nur durch eine alternative zu CMOS und/oder Silizium durchbrochen werden kann)

    Ein anderer unterschied um dynamischen verlustleistungsteil ist dass man nicht durch halbe frequenz/doppelte flaeche (parallelisierung statt serialisierung) das problem umgehen kann, denn mehr flaeche bedeutet auch mehr leakage (jeder transistor leckt).

    Bei der dynamischen Verlustleistung gibt es zwei Hauptanteile: Einen Anteil aus Querströmen stammend und einen anteil durch das umladen der Lastkapazitäten.

    Dominierend ist hier das umladen der lastkapazitaeten.

    Die querstroeme ergeben sich aus der tatsache das bei CMOS beim umschalten eines gatters immer n-Kanal- und p-Kanal-Transistoren gleichzeitig offen sind und so kurzfristig strom direkt von Vdd zu gnd fliessen kann.

    Dass die Querströme einen deutlich geringeren Anteil an der dynamischen Verlustleistung haben als das umladen der Kapazitäten kann man sich auch so erklären:

    In dem Moment in dem die Transistoren umschalten sehen die Transistoren die gerade aufmachen die Lastkapazität parallel zu Vdd/ground und auf demselben potential. Der strom den das sich öffnende gatter treiben kann wird in dem kurzen Moment in dem beide Transistorteile des Gatters gleichzeitig offen sind also nur teilweise tatsächlich in Richtung Vdd/ground fließen sondern beim umladen der Lastkapazität auch immer „seine arbeit tun“. Gleichzeitig ist der sich schließende Transistor ja auch schon genauso „teilweise zu“ wie der sich öffnende Transistor „teilweise auf“ ist, und der Pfad nach Vdd/ground weist einen endlichen widerstand auf.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.