Der Intel Pentium 4 Prozessor

Mit dem Pentium 4 hatte Intel große Pläne. Seine "Net Burst" Technologie sollte die Entwicklung für mehrere Jahre bestimmen und die mittlerweile schon 5 Jahre alte P6-Architektur ablösen. Diese war Basis des Pentium Pro, Pentium II und III. Net Burst sollte vor allem Video- und Audio Encodierung und spiele beschleunigen. Doch Net Burstkonnte die Erwartungen die man an sie hatte nicht einlösen. Die nächste Prozessorgeneration basierte wieder auf einem Ableger der P6-Architektur,

Technologie

Pentium 4 Aufbau 1 Die "Net Burst" Mikroarchitektur hatte den Fokus auf hohe Taktfrequenzen gerichtet. Die vorherige P6-Architektur dagegen mehr auf viele simultan arbeitende Einheiten. Einen ähnlichen Ansatz verfolgte auch AMD mit dem Athlon, der noch mehr simultan arbeitende Einheiten als der Pentium III aufwies. Die wesentlichen Unterscheide zum Pentium III ergeben sich aus der Forderung nach hohen Taktfrequenzen die zum einen bedeutend dass pro Takt weniger getan werden kann (es steht weniger Zeit zur Verfügung) und zum anderen dass die Diskrepanz zwischen internem Takt und dem vergleichsweise langsamen Hauptspeicher (der beim Start der Entwicklung mit 100 bis 133 MHz angesprochen wurde, also zehnmal niedrigeren Frequenzen als sie der Prozessor intern verwandt) anstieg, sodass man versuchen musste möglichst viele Daten im Prozessor zu halten, möglichst wenige Hauptspeicherzugriffe erforderlich zu machen.

Die erste Version des Pentium 4 hatte eine Taktfrequenz von 1,5 GHz, belegte 217 mm² Fläche und hatte 42 Millionen Transistoren. Sie wurde im 0,18 µm CMOS Prozess gefertigt und erschien im November 2000, genau fünf Jahre nach der P-6 Architektur.

Der Prozessor zerfiel in vier große Blöcke: (Bild links)

Das Memory Subsystem bestand aus dem Systembus der nach außen führte, daran angeschlossen die Bus Unit und hinter dieser der Level 2 Cache. Über diesen kommunizierte das Speichersubsystem mit dem Front End und den Integer und FP Execution Units
Die Integer und FP Execution Einheiten beinhalteten wiederum den Level 1 Cache und die eigentlichen Ausführungseinheiten. Sie kommunizierten mit der Out-of-order Execution logic und der Retirement Unit.
Die Out of Order engine bestand aus der erwähnten Out-of-order Exekution-Logic und der Retirement Einheit. Diese übermittelte an den BTB veränderte Sprungziele. Umgekehrt bekam die Out-of-Order engine vom Tace Cache Mikroinstruktionen übermittelt
Das Frontende bestand aus der Fetch/Decode Einheit, die Daten an den BTB/Branch Prediction Block übermittelte. Der wiederum fütterte den Trace Cache, an dem auch das Mikrcode ROM angeschlossen war.

Pentium 4 Funktionen Der komplexe Aufbau resultiert aus der einfachen Tatsache, das die x86 Architektur eine CISC Architektur ist und es lange Zeit nur eine Funktionseinheit gab. Damit war diese Architektur auf das sequentielle Abarbeiten der Befehle "In Order" ausgelegt. Intern arbeiteten aber seit dem Pentium Pro eine RISC Einheit und seit dem Pentium mehrere Funktionseinheiten. Die In Order Front Einheit empfängt x86 Instruktionen und muss den x86 Befehlsstrom in diese RISC Operationen (Mikroops) umwandeln und diese an die Out-Of-Order Einheit übergeben die versucht die Funktionseinheiten so gut wie möglich auszulasten und dafür auch Befehle umsortiert (das bedeutet Out-of-order). Das Übersetzen macht der Microcode, eine Art Interpreter im ROM. Microcode ist zwar langsamer als eine festverdrahtete Funktion, aber flexibler (Fehler sind leichter zu korrigieren) und benötigen weniger Logic auf dem Chip

Dem BTB (Branch Target Buffer) kommt dabei eine entscheidende Rolle zu. Dieser Puffer nimmt die wahrscheinlich nächsten aufgerufenen und letzten benutzten Sprungadressen auf. Der Prozessor versucht vorherzusagen wohin ein Sprung geht. Bei Schleifen z.B. geht er immer an den Schleifenanfang, außer beim letzten Durchlauf. Diese Vorhersage ist wichtig, weil der Prozessor vorrausschauend schon Befehle von dieser Adresse lesen und dekodieren muss. Ist sie falsch, so sind alle Befehle in der Pipeline - diese hat beim Pentium 20 Stufen - ungültig und es dauert bis zu 20 Takte, ein vielfaches der normalen Befehlsausführzeit diese Pipeline wieder zu füllen. Das Prefetching durch die Buseinheit (das vorrausschauende Einladen von Befehlen) und die Pipeline (das parallele Ausführen von Befehlen in verschiedenen Stufen) sind eine der Grundvoraussetzungen überhaupt einen (oder sogar mehrere) Befehle pro Takt auszuführen.

Aufbau 3 Warum nützt nun die Pipeline mit 20 Stufen der Geschwindigkeit, verglichen mit 11 Stufen des Vorgängers? Jeder Befehl hat eine Latenz und einen Throughput. Die Latenz gibt an, wie lange der Befehl braucht vom Beginn der Verarbeitung bis zu deren Abschluss. Wird die Stufenzahl der Pipeline verdoppelt, aber die Arbeit pro Stufe halbiert, so bleibt die Latenz gleich. Der Throughput gibt an, wann die Pipeline einen neuen Befehl akzeptieren kann. Bei den meisten Befehlen ist dies schon nach einem Takt der Fall. Hier verdoppelt sich bei verdoppeltem Takt der Throughput.

Damit man bei Schleifen einen Befehl nicht dauernd dekodieren muss, sitzt hinter dem Decoder ein Trace Execution Cache. Er speichert die dekodierten Mikroops und zwar 12.000 dieser. Anders als der L1-Cache speicherte er auch nur die ausgeführten Befehle. Ein herkömmlicher Cache dagegen immer einen Datenblock fester Größe (beim Pentium 4: 32 Byte), egal wie viele Bytes vom Programm benutzt wurden. Beim Pentium III waren die Microops 118 Bit breit, beim Pentium 4 sollen sie kürzer sein. Auch die Pipeline fängt erst nach diesem Cache an, umfasst also nicht die Stufen des Befehlsholens und Dekodierens. Der Trace Cache hatte einen eigenen Predictor. Er versuchte die Sprünge im Trace Cache vorherzusagen und einen 16 Einträgen langen Puffer für die letzten Sprungadressen.

Da Code sehr hohe Lokalität hat, also sehr viele Befehle öfters ausgeführt werden, sodass kleine Codeteile sehr oft ausgeführt werden, (Schleifen, häufig genutzte Unterprogramme) beschleunigt der Trace Cache die Ausführung von Programmen. Er nimmt schon übersetzte Mikrooperationen auf. Damit wird die Out-of-Order Einheit gefüttert. Nur wenn die Microops im Cache nicht mehr gültig sind (größerer Sprung, Interrupt, Kontextwechsel) wird der Decoder aktiv und holt neue Befehle aus dem L2-Cache.

Die Out-of-Order Maschine (der RISC Teil) hat diverse Buffer, die Instruktionen und ihre Operanden aufnehmen. Sobald alle Operanden eines Befehls verfügbar sind (gegeben, wenn diese nicht erst wenige Befehle vorher errechnet wurden) wird er ausgeführt und an die Ausführungseinheiten übergeben, ansonsten wird an dem nächsten Befehl gearbeitet und gewartet. Die Reihenfolge entspricht also nicht der des Codes. Da die IA32 Architektur nur 8 Register hat sind Abhängigkeiten sehr häufig. Zur Reduktion dieser nutzt der Pentium 4 wie seine Vorgänger mehr Register in der RISC Maschine als die CISC Maschine nach außen hin zeigt, nämlich 128 Stück (jeweils für Integer und FPU). Sie werden durch die Register Allocation Table (RAT) auf die wenigen x86 Register gemappt. So können parallel mehrere Kopien des EAX Registers in verschiedenen Befehlen verwendet werden. Verbessert wurde das Handling dieses Mappens. Bei der P6 Architektur gab eine Tabelle mit den Daten und eine Tabelle mit Statusfelderrn, die angaben welches Register gemappt wurde und sein Status (belegt, frei, wartet auf Ergebnis etc.). Beim Ende der Ausführung wurde von der Retirement Einheit der Wert des Registers in eine Retirement Register Filetable kopiert von der es dann im IA32 Register landete. Bei der Pentium 4 Architektur gab es nur eine Tabelle mit kombinierten Daten und Statusinformationen und keine Retirement Register, so entfielen diese Kopieraktionen.

Nach dem Trace Execution Cache lag der Scheduler. Er verteilte die Mikrooperationen an die Recheneinheiten und Speichereinheiten über 5 Ports. Wie beim Vorgänger konnten pro Takt bis zu 5 Mikroops auf den Weg gebracht werden, typisch ist aber eher eine Zahl von 3 Mikroops. Die Zahl der Ports waren seit dem P6 gleich geblieben, aber die Funktionseinheiten hatten sich auf 9 erhöht: dabei waren die ALUs zwei geteilt. Es gab zwei ALU die mit doppelter Taktgeschwindigkeit arbeiteten und eine die eine normale Taktrate hatte. einfache Integeroperationen wie Addition, Subtraktion oder logische Verknüpfungen konnten durch die ALU mit doppelter Taktrate ausgeführt werden, komplexe wie das Addieren mit Carry Bit Schieben, Rotieren oder Multiplikation benutzten die zweite ALU. Das waren 30-40% der Befehle, denn die "double pumped Alu" konnten nur die einfachsten Befehle ausführen. So waren zwei "Double Pumped" ALU eigentlich überdimensioniert: Wenn 33% der Befehle auf die normale ALU entfielen, dann hätte eine der ALU mit doppeltem Takt auch gereicht. Bei komplexen Integerbefehlen war so der Pentium 4 seinem Vorgänger mit drei normalen ALU unterlegen. Damit bei diesem niedrigen Takt überhaupt die Operation durchgeführt werden musste wurde eine 32 Bit Addition z.B. in zwei 16 Bit Additionen aufgeteilt, die nominell zwei halbe Takte brauchte, aber nach dem ersten Takt waren die unteren 16 Bits schon wieder frei für den nächsten Operanden.

Es gab zwar zwei FPU, aber eine war für die Bewegungsbefehle (FMOVE, FSTORE) zuständig, die zweite für alle Rechenoperationen und SSE / MMX Befehle. Das war ebenfalls eine Entscheidung zugunsten der Geschwindigkeit, auch weil die Ports und die vom Scheduler gelieferten Mikroops sich nicht erhöht haben und so nicht ausreichen sollten zwei FPU voll zu beschäftigen.

Pentium 4 "Willamette Kern" Der L1-Datencache wurde gegenüber dem des Pentium III von 16 auf 8 Kbyte verkleinert. Dafür ist er "dual ported" : L2-Cache und Prozessorkern können gleichzeitig auf den Level 1 Cache zugreifen, Er hat auch eine "Read Latency" von zwei anstatt drei Takten beim Pentium III. (Fließkommazahlen: 6 Takte). Der L2-Cache ist wie beim Pentium III 256 Kbyte groß, ebenfalls schneller (7 anstatt 10 Takte) speichert aber größere Cachelines von 128 Byte Länge ab. Dies war wohl eine Auslegung auf das damals gerade aufgekommene RAMBUS System. Dieser Speicher konnte mehr Daten als das SD-RAM übertragen, Wie der später entstandene DDR-RAM wurde ein Transfer der nächsten Datenpakete schon initiiert während der erste erfolgte. RAMBus hatte so eine Datenrate von 400 MHz bei einer Taktfrequenz von 100 MHz. Auch die Datenrate von von 32, Gigabyte/s des Systembusses war auf ein Zweikanal RAMBUS System ausgelegt. Es bot gegenüber SD-RAM die vierfache Datenrate durch einen Systemtakt von 400 MHz. Der L2-Cache war an den L1-Cache mit einem 256 Bit breiten Bus angebunden und hatte eine Datenrate von 48 GB/s - 15-mal mehr als die Speicherbandbreite von 3,2 GByte/s. (bei einem 1,6 GHz System). Zu dem Instruktionsprefetcher war er mit einem 64 Bit Bus angebunden. Der Prefetcher hatte einen Hardware-Prefetch spendiert bekommen - er holte nicht nur Befehle, sondern auch Daten im Voraus. Dazu wurden die Zugriffsmuster überwacht und wenn auf bestimmte Daten häufig zugegriffen wurde, diese vorausschauend gelesen. Bei der SPEC Suite brachte das eine Geschwindigkeitssteigerung von 20%. Der Hardwareparefetch lud die nächsten 256 Bytes im Voraus. Der Decoder lud vom L2-Cache lud die Instruktionen in 64 Byte Happen und dekodierte sie. Bis zu 4 Mikroops pro Befehl konnte er direkt an das Microcode-ROM übergeben.

Der Pentium 4 unterscheidet sich in einem vom Vorgänger: er war explizit für den Desktopmarkt vorgesehen, es gab keine Möglichkeit ein Mehrprozessorsystem auf dem Pentium 4 auszubauen. Für Server hatte Intel inzwischen die Xeon Linie aufgebaut, die auch den Net Burst Kern einsetzte, jedoch Multiprozessorsupport bot.

Prescott Kern Die schon beim Vorgänger Pentium III eingeführten SSE Befehle wurden erweitert. Die neue Befehlserweiterung SSE2 hatte 144 weitere Befehle. Sie bearbeiteten anders als die SSE Befehle vor allem Integer Zahlen und sollten MMX ablösen, das auch Integerzahlen mit den FPU Registern bearbeitete, aber nur 64 Bit nutzte. Für SSE hatte man die FPU Register auf 128 Bit erweitert und SSE2 ersetzte nun MMX durch die breiteren Register. Erstmals konnten auch Doppelt genaue Fließkommazahlen berechnet werden (Spitzenleistung: 2 FLOPS/Takt). SSE-Anweisungen konnten bis zu drei Einheiten beschäftigen. Integer Anweisungen verarbeiteten 64 Bits pro Takt. SSE2 brachte mehr Leistung für die im wissenschaftlich-technischen Bereich wichtigen 65 Bit Fließkommazahlen. Die Genauigkeit bei den Berechnungen nahm etwas ab, da der FPU Teil bei x87 Befehlen mit 80 Bit intern rechnete und erst beim Abschluss der Rechnung auf 64 Bit rundete. Da der Modus mit 80 Bit Genauigkeit anders als der 64 Bit Modus aber nicht durch IEEE 754 standardisiert wurde, begann Intel sich von ihm zu verabschieden. Alle folgenden Erweiterungen (es folgten noch SSE4,5,6 und AVX) arbeiteten mit maximal 64 Bit breiten Zahlen.

Es gab im Design aber auch einige Macken, die sich bei entsprechenden Programmen auswirkten und diese stark verlangsamten. Das eine war das der Trace Execution Cache nicht alle Mikroops speicherte sondern nur die ersten drei eines Befehls. Komplexe Befehle wie z.B. die indirekte Adressierung, Multiplikation oder Division wurden dadurch verlangsamt, weil dann der Rest der Mikroops nach Beginn der Ausführung erst gebildet werden musste.

Von maßgeblicher Bedeutung für die Performance war aber die superlange Pipeline von 20 Stufen. Intel gab an, dass man durch diese Länge bis zu 126 Befehle "on the fly" halten kann, also in verschiedenen Stadien der Bearbeitung. Davon konnten bis zu 48 Daten laden und 24 Daten speichern. Für das Speichern gab es auch 24 Write-Buffer, damit diese nicht die Ausführung aufhielten. Das war bei den Befehlen und dem Laden die dreifache P6-Performance, beim Speichern noch die doppelte. War der Inhalt ungültig, z.B. durch einen Sprung so brauchte der Prozessor erheblich länger bis er wieder einen Troughtput von mehr als einem Befehl pro Takt erreichte als der Athlon und Pentium III mit ihren kürzeren Pipelines. Daher vergrößerte Intel auch den Branch Target Prediction Buffer von 512 auf 4096 Einträge. Die Vergrößerung geht auch mit einer neuen Struktur herein, die ähnlich wie Caches mehrfach assoziativ aufgebaut ist, nur mit einer verketteten Liste der die History der letzten Sprünge abbildet. Die falsch vorhergesagten Sprünge sollten so gegenüber dem Pentium III um ein Drittel verringert worden sein.

Geschichtliche Bedeutung

Der Pentium 4 debütierte im November 2000 mit einem Takt von 1,5 GHz. Dieser hohe Takt bei Markteinführung wird heute als Notfallmaßnahme gesehen, da AMD zum ersten Mal seit es überhaupt x86 Prozessoren gab, mit dem Athlon einen Prozessor in Petto hatte, der schneller als Intels Flagschiff Pentium III war. Obwohl der Takt höher als beim Pentium III war (das war ein Unikat, da bei den meisten vorherigen Launches neuer Prozessoren man erst mit niedrigerem Takt als bei den etablierten Vorgängern begann und sich dann steigerte) war das Ergebnis ernüchternd. Nach Tests der Computerzeitschrift ct' war ein 1,6 GHz Pentium 4 nur so schnell wie ein 1,15 GHz Pentium III, bot also nur wenig Mehrleistung gegenüber diesem Prozessor (der damals mit maximal 1000 MHz verfügbar war) und er konnte einen Athlon mit 1,2 GHz nicht überholen, dazu hätte er auf 1,8 bis 1,9 GHz getaktet werden müssen. Dabei war der Prozessor mit 1760 DM pro Stück recht teuer, die Mainboards auch mit rund 800 DM und die erste Generation erforderte teuren RAMBUS Speicher, sodass der Systempreis eines PC bei 4.000 DM lag - da bekam man mit einem Athlon für deutlich weniger Geld ein schnelleres System. (Der Autor kaufte 9 Monate später einen Athlon-1200 Rechner für 1.700 DM). Es war nicht nur der Prozessor, der das System so teuer machte. Es waren auch die Chipsätze von Intel, die nur RAMBUS unterstützten, und der patentrechtlich geschützte RAMBUS Speicher war ebenfalls teurer als SD-RAM. Dessen Langsamkeit konnte ein Athlon durch größere Caches wettmachen. So war beim Athlon der L1-Cahce mit 64 Kbyte achtmal so groß wie beim Pentium 4. (Die-Bild oben: Wilamette Kern)

Die Net Burst Architektur war nicht in allen Benchmarks schlechter als der Athlon oder Pentium III (bei gleichem Takt). Es gab durchaus Programme in der SPEC/BAPCo Testsuites, die deutlich schneller liefen. Als Schlüssel entpuppte sich, wie klein der am häufigsten benutzte Code war. Programme wie das Encodieren von Audio oder Video gehörten Dazu. Die Kernroutinen passten in den L1-Cache bzw. wahrscheinlich auch in den Trace Execution Cache und so waren kaum Hauptspeicherzugriffe nötig, die wegen des damals nur 100 MHz getakteten Systembusses die Ausführung stark verlangsamten. Das galt eingeschränkt auch für den L2-Cache. Intel selbst gab bei Verkaufsstart bei Integeranweisungen einen 15-20% Vorsprung gegenüber dem Willamette (allerdings bei 50% höherem Takt), bei FPU intensiven waren es 30-70%. Paradebeispiel für eine hohe Performance war der Windows Media Benchmark. Daher bewarb Intel den Prozessor auch für Spiele, Video (Streaming/Kodierung) und Audio. SSE2 brachte beim SPEC 2000 Benchmark nur 5% mehr. Intel hoffte, wie beim Pentium der seine volle Performance nur bei neuem Code erreichte, auf optimierende Compiler. Mit neuem Code würde der Pentium 4 schneller werden.

Zudem gab es Probleme mit dem hohen Takt während der ersten Monate, sodass Intel zuerst noch niedrig getaktete Versionen mit 1,2 bis 1,5 GHz nachschob.

Mitte 2001 schienen diese Probleme gelöst und der Takt kletterte bis auf 1,9 GHz die im August 2001 erreicht wurden. Dann wurde die erste Generation des Pentium 4 "Willamette" durch die zweite "Northwood" ersetzt. Bei ihr hatte man den L2-Cache von 256 auf 512 KByte erhöht. Das entlastete ihn von Hauptspeicherzugriffen. Vor allem aber stand nun ein neuer Fertigungsprozess zur Verfügung, Mit Strukturen von 130 anstatt 180 nm Größe wurde das Die kleiner, dadurch konnte man die Taktfrequenz erhöhen. Northwood erschien mit 2 GHz im Januar 2002 und innerhalb eines Jahres konnte Intel den Takt um 50% steigern und im November 2002 eine 3,06 GHz Version ausliefern. Es schien, als wäre der Pentium 4 nun auf der Erfolgsspur die man anvisiert hatte - er würde mit einem sehr hohen Takt die Geschwindigkeitskrone zurückerobern.

Northwood führte das Hyperthreading ein. Hyperthreading gaukelt dem Betriebssystem zwei Prozessoren vor. Das Betriebssystem führt mehrere Programme aus, dazu kommen Treiber und speicherresidente Hilfsprogramme. Es kann so den zweiten Kern für diese Programme nutzen und den ersten Kern entlasten. Hyperthreading lastet die Funktionseinheiten besser aus indem es die Verteilung auf diese vom Prozessor auf das Betriebssystem auslagert. Da nach wie vor aber der Cache, Dekoder, Scheduler und alle andere Teile des Prozessors nur einmal vorhanden sind (anders als die Funktionseinheiten) verdoppelt sich nicht die Leistung, sondern sie stieg in typischen Benchmarks nur um 15%.

Spätere Versionen steigerten den Systemtakt von 133 auf 200 MHz. Bei diesem ist es seitdem geblieben. Es zeigten sich aber nun auch die Kehrseiten des hohen Takts. Der Pentium 4 wies schon bei den ersten Versionen eine sehr hohe Verlustleistung auf. Das heißt, er benötigte viel Strom und setzte den größten Teil in Wärme um. Der Williamette Kern verbrauchte 49 bis 84 Watt, schon der erste Wert war 50% höher als bei einem Pentium III. Bei Northwood sah es zuerst besser aus, da die kleineren Strukturen weniger Strom brauchten, doch die Takterhöhung führte schließlich auch zu einer Steigerung auf 89 Watt die bei der letzten Version mit 3,4 GHz erreicht wurden. Diese erschien Anfang 2004, während des Jahres 2003 hatte Intel also den Takt nur um rund 10% steigern können. Der Grund waren Leckströme, genauer gesagt ein Anteil, der mit der Taktfrequenz stark und nicht linear ansteigt und der bei kleinen Strukturbreiten immer stärker auftritt, weil dann Isolationen zwischen den Elementen nicht mehr so stark isolieren, da auch sie immer dünner werden.

Pentium 4 dual Core Bei etwa 90 Watt war mit den meisten herkömmlichen Luftkühlmethoden Schluss. Obwohl diese Hitze auf einen großen Kupferblock verteilt wurde und dann oben von einem schnell rotierenden 15 cm Lüfter an die Umgebung abgegeben wurde, war eine dauerhafte Abgabe von mehr Leistung nicht möglich. Es erschienen noch einige hochgetaktete Versionen "Extreme Edition" die besonders aufwendig gekühlt werden mussten mit bis zu 115 bis 130 Watt Wärmeabgabe und einem Maximaltakt von 3,83 GHz, aber dann war Schluss mit der Net Burst Technologie. Auf Vorführungen von Intel (Intel Developer Forum) wurde gezeigt, das Net Burst durchaus hohe Taktraten von 7 bis 9 GHz (theoretisch sogar 10 GHz) erreichen konnte - doch diese Systeme waren Wasser und später sogar mit flüssigem Stickstoff gekühlt. Das war in einem PC nicht praktikabel.

Die hohe Verlustleistung machte den Pentium 4 für mobile Geräte (das waren damals fast nur Notebooks) unattraktiv. Es erschienen mobile Versionen des Pentium 4, doch Intel entwickelte auf Basis der vorherigen P6-Pro Architektur den Pentium M für diese Geräte, der erheblich stromsparender war und besser zu dieser Geräteklasse passte. Aus dieser Architektur sollte dann der Netburst-Nachfolger entstehen.

Es erschienen noch zwei Versionen: Prescott (Bild Mitte) und Cedar Mill im 90 bzw. 65 nm Prozess. Die Pipeline wuchs dabei mit: Prescott, der 3,8 GHz erreichte hatte eine 31-stufige Pipeline. Doch sie konnten weder die Wärmeabgabe senken noch die Taktfrequenz signifikant steigern. Intel versuchte gar nicht erst den Pentium 4 als Prozessor für mobile Geräte (damals fast ausschließlich Notebooks) zu vermarkten, da seine Leistungsaufnahme zu hoch war. Als Basis des Pentium 4M, später nur Pentium M genannten, Mobilprozessors diente der Kern des Pentium III. Aus ihm sollte, nachdem man sah, dass man die Taktfrequenz nicht mehr weiter steigern konnte, die nächste Architektur entstehen.

Der Prescott führte zeitgleich mit der inzwischen vorgestellten Nachfolge Architektur "Core Mikroarchitektur") auch die SSE3 Befehle ein, die anders als SSE2 nur eine geringe Erweiterung des Befehlsvorrates waren um komplexe Zahlen besser berechnen zu können, Ganzzahl in Fließkommzahlen umzuwandeln und die Arbeit besser mit Threads und dem Speicherzugriff zu synchronisieren.

Zwei Ableger des Pentium 4 waren die Pentium 4 XE (Extreme Edition) und der Pentium D. Bei den ersteren handelte es sich Xeon Prozessoren die für den Desktopbetrieb angepasst waren und etwas schneller als die normalen Pentium 4 waren, dafür sehr teuer verkauft wurden. Zielgruppe waren Hardcore Gamer die für etwas mehr Leistung ein Mehrfaches des normalen Preises ausgaben (bis zu 999 Dollar pro Prozessor). Die Pentium D Linie war die Geburt der Dualcore Prozessoren. Die ersten Pentium D (Smithfield) waren nur zwei Prescott Kerne auf einem Die. Die zweite Generation (Prester) führte dann einen gemeinsam genutzten L3-Cache ein. Für diesen Typ brauchte man eigene Mainboards, da die Prozessoren mehr Pins hatten. Der Pentium XE lief auch in Sockel 478 Systemen.

Der letzte Pentium 4 wurden Januar 2007 ausgeliefert, wenige Monate nach Erscheinen des Nachfolgers Intel Core 2. Mit dem Pentium 4 endete auch die Zeit der rapide ansteigenden Taktfrequenzen. Während diese in den Siebziger und Achtzigern Jahren nur langsam anstiegen (von 1972 bis 1982 von 0,74 auf 8 MHz, von 1982 bis 1992 auf 50 MHz), beschleunigte sich das in den Neunzigern. (von 50 auf 3060 MHz in einem Jahrzehnt). Die höchste Steigerung gab es am Ende dieser Epoche mit dem 50% Taktanstieg 2002, wäre die Entwicklung seit Einführung des ersten Mikroprozessors genauso verlaufen wie 2002, so hätten wir heute Prozessoren mit einem Takt von über 18.000 GHz. Alle Nachfolger haben einen geringeren Takt als der Prescott Kern gehabt. Lediglich für kurze Zeit, wenn nicht alle Kerne arbeiten, kann einer der Kerne einen höheren Takt erreichen, weil er dann das "Thermalbudget" der anderen Kerne mit ausnutzen kann. Doch auch dann ist der Takt nicht viel höher als beim Prescott. Bei den 2014 aktuellen Haswell Prozessoren sind es 4,4 GHz.

Nicht besonders erwähnt wird in Intels Dokumenten die Einführung des 64 Bit Befehlssatzes, der zuerst EMT64, dann Intel 64 hieß: den hatte Konkurrent AMD erfunden und in dem Athlon 64 Prozessor zuerst eingeführt. Das verstärkte den Markterfolg von AMD und Intel zog nach und führte Anfang 2004 mit dem Prescott Kern auch die Befehle von AMD ein, allerdings nicht alle und es gab auch bei einigen Abweichungen. Diese betreffen allerdings nur Betriebssysteme. Die normalen Befehle die nur Daten manipulieren sind in beiden Plattformen dieselben.

Intel hat die Lehren aus dem Scheitern von Netburst gezogen. Zum einen wurden die Prozessoren immer stromsparender, vor allem wenn nur wenig Rechenleistung gefordert ist, was heute bei den typischen Büroanwendungen der Fall ist. Es sank aber auch die maximale Thermalleistung von Haswell Prozessoren im "Normalsegment" (Core i5 Serie) ohne Übertaktung liegt bei 88 Watt. Der Pentium 4 erreichte 115 Watt bei den Normalversionen. Das zweite war, das Intel an der Architektur seitdem nur noch wenig pro Generation änderte, sie evolutionär verbesserte anstatt wie bei Netburst sie durch eine komplett neue "revolutionär" abzulösen.

Technische Daten
Erschienen:	November 2001 (Wilamette) 1.2.2002 (Northwood) 1.2.2004 (Prescott) 2.4.2004: Pentium 4 XE 19.4.2005: Pentium D (Smithfield) 5.1.2006: Pentium D (Prester) Anfang 2006 (Cedar Mill)
Transistoren:	42 Millionen (Wilamette) 55 Millionen (Northwood) 125 Millionen (Prescott) 188 Millionen (Cedar Mill) 169-178 Millionen (Pentium 4 XE) 230/376 Millionen (Pentium D Smithfield) 376 Millionen (Pentium D Presler)
Technologie	0,18 - 0,065 µm
Taktfrequenzen:	1,3 - 3,8 GHz (Pentium 4) 3,2 - 3,73 GHz (Pentium 4 XE) 2,66 bis 3,8 GHZ (Pentium D)
Recheneinheiten Ganz/Fließkomma	2 Doppelte Geschwindigkeit +1 Normale Geschwindigkeit / 1
Geschwindigkeit Ganzzahlen	2430 Dhrystones bei 3000 MHz (Pentium 4), 3678 bei 3066 MHz (Pentium D)
Geschwindigkeit Fließkommazahlen	1119 Whetstones bei 3000 MHz (Pentium 4), 1816 bei 3066 MHz (Pentium D)
Geschwindigkeit:	700 - 4100 MIPS
Spannung:	1,2 bis 1,75 Volt
Gehäuse:	Sockel 423 und 478 (Pentium 4) Sockel 478/ 775: (Extreme Edition) Sockel 775: Pentium D
Speicher:	64 GByte physikalisch, 64 TByte virtuell
Datenbus:	64 Bit breit
Vorgänger:	Pentium II//III
Nachfolger:	Intel Core Mikroarchitektur

Technische Daten einiger Pentium 4 Prozessoren

Typ	Erscheinungsdatum	addressierbarer Speicher	Taktfrequenz	Transistoren	Technologie
Pentium 4 (Wilamette)	November 2000	64 GB	1400,1500 MHz	42 Millionen	0.18 µ HCMOS
Pentium 4	April 2001	64 GB	1700 MHz	42 Millionen	0.18 µ HCMOS
Pentium 4	Juli 2001	64 GB	160,1800 MHz	42 Millionen	0.18 µ HCMOS
Pentium 4	August 2001	64 GB	1900 MHz	42 Millionen	0.18 µ HCMOS
Pentium 4 (Northwood)	August 2001	64 GB	2000 MHz	55 Millionen	0.13 µ HCMOS
Pentium 4	Januar 2002	64 GB	2200 MHz	55 Millionen	0.13 µ HCMOS
Pentium 4	April 2002	64 GB	2400 MHz	55 Millionen	0.13 µ HCMOS
Pentium 4	August 2002	64 GB	2500-2800 MHz	55 Millionen	0.13 µ HCMOS
Pentium 4	November 2002	64 GB	3060 MHz	55 Millionen	0.13 µ HCMOS
Pentium 4 HT (Prescott)	April 2003	64 GB	3000 MHz	125 Millionen	0.09 µ HCMOS
Pentium 4 HT	Juni 2003	64 GB	3200 MHz	125 Millionen	0.09 µ HCMOS
Pentium 4 HT	Februar 2004	64 GB	3400 MHz	125 Millionen	0.09 µ HCMOS
Pentium 4 HT	Juni 2004	64 GB	3600 MHz	125 Millionen	0.09 µ HCMOS
Pentium 4 HT	November 2004	64 GB	3800 MHz	169 Millionen	0.09 µ HCMOS
Pentium 4 HT Extreme	November 2004	64 GB	3460 MHz	178 Millionen	0.09 µ HCMOS
Pentium 4 HT Extreme	Februar 2005	64 GB	3730 MHz	169 Millionen	0.09 µ HCMOS
Pentium D (Smithfield)	April 2005	64 GB	2660 MHz	230 Millionen	0.09 µ HCMOS
Pentium D (Prester)	Januar 2006	64 GB	3066 MHz	376 Millionen	0,065 µ HCMOS

Quellen:

Intel: Pentium 4 Processor Developer Manual

Microarchitekture of the Pentium 4 Processor

Intel: The Microarchitecture of the Pentium 4 (TM) Processor

Intel: Pentium 4 Processor Datasheet

ct 24/2001: Bei Lichte betrachtet Die Architektur des Pentium 4 im Vergleich zu Pentium III und Athlon

ct 24/2001: Des Pentium neue Kleider

Artikel erstellt am 25.10.2014

Zum Thema Computer ist auch von mir ein Buch erschienen. "Computergeschichte(n)" beinhaltet, das was der Titel aussagt: einzelne Episoden aus der Frühzeit des PC. Es sind Episoden aus den Lebensläufen von Ed Roberts, Bill Gates, Steve Jobs, Stephen Wozniak, Gary Kildall, Adam Osborne, Jack Tramiel und Chuck Peddle und wie sie den PC schufen.

Das Buch wird abgerundet durch eine kurze Erklärung der Computertechnik vor dem PC, sowie einer Zusammenfassung was danach geschah, als die Claims abgesteckt waren. Ich habe versucht ein Buch zu schreiben, dass sie dahingehend von anderen Büchern abhebt, dass es nicht nur Geschichte erzählt sondern auch erklärt warum bestimmte Produkte erfolgreich waren, also auf die Technik eingeht.

Die 2014 erschienene zweite Auflage wurde aktualisiert und leicht erweitert. Die umfangreichste Änderung ist ein 60 Seiten starkes Kapitel über Seymour Cray und die von ihm entworfenen Supercomputer. Bedingt durch Preissenkungen bei Neuauflagen ist es mit 19,90 Euro trotz gestiegenem Umfang um 5 Euro billiger als die erste Auflage. Es ist auch als e-Book für 10,99 Euro erschienen.

Mehr über das Buch auf dieser eigenen Seite.

Hier geht's zur Gesamtübersicht meiner Bücher mit direkten Links zum BOD-Buchshop. Die Bücher sind aber auch direkt im Buchhandel bestellbar (da ich über sehr spezielle Themen schreibe, wird man sie wohl kaum in der Auslage finden) und sie sind natürlich in den gängigen Online-Plattformen wie Amazon, Libri, Buecher.de erhältlich.

Sitemap

Kontakt

Impressum / Datenschutz

Neues

Hier werben / advertisment here

Buchshop

Bücher vom Autor