Die Entwicklung der Intel Prozessoren

Im vorliegenden Artikel geht es um die technische Entwicklung des PC. Motor dafür ist der Prozessor - Seine Rechengeschwindigkeit, seine Verarbeitungsbreite und sein adressierbarer Speicher. Es gibt sehr viele Prozessoren, im folgenden soll nur an der Intel Serie die technische Entwicklung über 30 Jahre gezeigt werden. Mehr Details über die 4 und 8 Bit Prozessoren (4004, 4040, 8008, 8080 und 8085) finden Sie in einem ausführlicheren Artikel.

Die 4 Bit Generation (1970-1972)

Intel 4004 (15. November 1971)

(Bild Links) Hergestellt in PMOS Technologie. Intels erster 4 Bit Prozessor (der erste Prozessor der überhaupt kommerziell verfügbar war), 4 KByte Adressraum (12 Bit), 740 Kilohertz Taktfrequenz (zirka 60.000 4 Bit Instruktionen pro Sekunde), bei 2250 Transistoren. - Insgesamt 46 Befehle. Der Intel 4004 war der erste kommerziell verfügbare Mikroprozessor. Jedoch war er für mehr als Steueraufgaben zu langsam. Es gab 1972 eine etwas verbesserte Version den 4040 mit 14 weiteren Instruktionen und Interrupt Support. Die Technologie erlaubte damals nur Strukturbreiten von 10 µm, also 70 mal gröber als bei seinem derzeitigen Nachfolger Pentium 4. Dafür waren die Abmessungen des Chips nicht gerade klein: Über 600 mm².

Der Prozessor entstand als Auftragsarbeit für die japanische Firma Busicomm. Ursprünglich sollte man die Schaltungen für einen Tischrechner entwickeln. Ted Hoff entwickelte ein Konzept mit dem man den Schaltungsaufwand reduzieren konnte und erfand so neben bei den Mikroprozessor. Inzwischen war Busicomm auch nicht mehr so sehr an dem Prozessor interessiert und man kaufte von Busicomm für denselben Betrag den man für die Entwicklung bekam (55.000 Dollar) die Rechte zurück und vermarktete den Prozessor selbst. Intel verkaufte insgesamt 100.000 Chips zu je 200 USD das Stück. Schon damals war Andy Grove Präsident von Intel.

Über die Taktfrequenz gibt es sehr unterschiedliche Angaben. Intel schreibt selbst von 108 kHz. Dies erscheint recht wenig. Andere Quellen sprechen von 200 kHz oder 740 kHz. Der Chip selbst hatte einen sehr kleinen internen Stack von 3 Registern Größe. Beim 4040 wurde dieser auf 7 Register erweitert. Es gab noch keine PUSH/POP Instruktionen. Die RAM/ROM Adressierung waren getrennt. (Harward Architektur). Der Arbeitsspeicher war nur 640 Bytes groß, das ROM dagegen 4 KByte.

Die 8 Bit Generation (1972-1978)

Intel 8008 (1. April 1972)

Dies war Intels erster 8 Bit Prozessor in 10µm PMOS Technologie: Der erste 8 Bit Prozessor von Intel war noch kein Erfolg, es war mehr ein von 4 auf 8 Bit übertragenes Konzept. So stieg z.B. die Zahl der Anschlüsse nur von 16 auf 18, trotz des verdoppelten Datenbusses. Dies machte es sehr aufwendig die Daten von den Adressen und I/O Signalen zu trennen. Der Prozessor wurde ursprünglich für das Datapoint 2200 Terminal von CTC als Auftragsarbeit entwickelt. Dies erfolgte zeitgleich mit dem 4004 Prozessor und so ist es nicht verwunderlich, dass er sehr viel mit diesem in der Architektur gemeinsam hatte.

Als die Computer Terminal Corporation (CTC) seinen Auftrag zurückzog kaufte man wie bei dem 4004 die Rechte zurück. Grund dafür waren zum einen die Verzögerung der Entwicklung. Zum anderen war der Prozessor für den Anwendungsbereich zu langsam und man brauchte etwa 20 weitere IC's für ein System.

Der Adressraum betrug nur 16 Kilobyte, mit maximal 80.000 Instruktionen pro Sekunde war er auch nur wenig schneller als der 4004. Der 8008 wurde als Terminalkontroller verwendet Die 3300 Transistoren arbeiteten zuerst bei 500 kHz, später bei 800 kHz. Sowohl Bill Gates wie auch Gary Kildall - Softwarepioniere der frühen Tage schrieben die ersten Programme für den 8008. Allerdings: wegen der hohen Chippreise von Intel konnten sich beide kein 8008 System leisten und programmierten Tiny-BASIC und CP/M auf PDP-8 Rechnern in ihrer Uni, die einen 8008 emulierten... Im Markt hatte er noch zu wenig Chancen, vor allem weil man mit 16 K Adressbereich wenig anspruchsvolles machen konnte. Da das Gehäuse nur 18 Pins hatte war auch ein 8008 System sehr schwierig zu designen, denn man musste nun die Datenleitungen und Adressleitungen über dieselben Pins herausführen und brauchte etwa 20 weitere IC's für ein Minimalsystem vor allem um die Signale richtig zu dekodieren. Dagegen kam ein 4004 System mit nur 4 Chips aus.

Der 8008 führte die 8 Register B,C,D,E,H und L und den Akkumulator A ein, die es auch bei seinem Nachfolger 8080 gab, dort allerdings mit der Möglichkeit diese zu 16 Bit Register zu kombinieren. Insgesamt 50 Befehle standen zur Verfügung. Der Stack war beim 8008 noch auf einem separaten 512 Bit Baustein untergebracht, es gab keinen Stackpointer den man im Hauptspeicher verschieben konnte. Intel 8080

Intel 8080 (1. April 1974) (2-3.125 MHz)

(Bild links) Der erste vollwertige 8 Bit Prozessor, der auch in den ersten Selbstbau PCs steckte. Von seinem Vorgänger unterschied ihn sein voller 64 Kilobyte Adressraum und höhere Geschwindigkeit als der 8008. Ursprünglich war nur gedacht eine schnelle Version des 8008 in der neuen NMOS Technologie zu entwickeln. Es zeigte sich aber dass man die Masken nicht einfach übertragen konnte. So entwickelte Federico Faggin einen neuen Prozessor, der auch zwei der Kritikpunkte des 8008 beseitigte : Die Langsamkeit und die Mehrfachnutzung von Daten und Adressbus.

Neu war die Einführung des Stackpointers um Unterprogrammaufrufe und Register einfach zu sichern. Bei den vorhergehenden Modellen war der Stack fest im Prozessor eingebaut und umfasste nur 3 (Intel 4004) beziehungsweise 7 (4040, 8008) Register. Durch ein 40 poliges Gehäuse war nun auch die Mehrfachbelegung von Pins mit Datenbus und Adressbus wie beim 8008 nicht mehr nötig und der Schaltungsaufwand für ein einfaches System sank von 20 auf 6 Chips.

Der 8080 bestand aus 6000 Transistoren und hatte 56 Befehle. Neu waren Bitmanipulationsbefehle und die Möglichkeit die Register B+C, D+E und H+L als 16 Bit Register zu nutzen. Die Rechengeschwindigkeit bei 2.5 MHz erreichte 290.000 Befehle pro Sekunde, war also 3 mal schneller als sein Vorgänger. Dies erreichte man durch die NMOS Technologie und den getrennten Daten und Adressbus. Da die Befehle aber mächtiger als beim 8008 war und sehr bald eine höher getaktete Version erschien lag der Geschwindigkeitsunterschied beim Ausführen von Programmen höher und erreichte den Faktor 10. Die erste Generation 8080 hatte jedoch einen gravierenden Bug: Es gelang dem Chip nicht dynamische Speicher korrekt wiederaufzufrischen: Dafür musste jede Zelle in periodischem Abstand ausgelesen und wieder geschrieben werden, sonst ging die Information durch Leckverluste verloren. Das Signal dafür blieb aber immer wieder auf wodurch die Bausteine ihren Speicherinhalt verloren und der Computer abstürzte. Erst beim 8080A hatte man dieses Problem gelöst.

Taktraten von 2 bis 3.125 MHz waren in der 6 µm NMOS Technologie möglich. Der 8080 steckte in vielen der ersten PCs, weil er der erste 8 Bit Prozessor war (Trotz einer Verzögerung von 9 Monaten, weil das Management ihn zuerst nicht entwickeln wollte). Ein Beispiel dafür ist der Altair 8800. Er erschien im Januar 1975 und läutete die PC Revolution ein. Intel war damit bis 1976 marktbeherrschend, obwohl wenige Monate nach dem 8080 Prozessor die erste Konkurrenz in Gestalt des Motorola MC 6800 erschien. Erst der Zilog Z80 und der 6502 von MOSTEK nahmen Intel große Marktanteile weg. Beim 8080 vollzog Intel den Wechsel von der PMOS auf die NMOS Technologie, wodurch die Schaltzeiten sanken und die Taktfrequenz stieg. Der erste 8080 war noch in PMOS Technologie erschienen, der 1976 erschienene 8080A in NMOS, wodurch die Taktfrequenz auf 3 MHz anstieg und nur 4000 anstatt 6000 Transistoren benötigt wurden.

Erfolgreich war Intel vor allem beim Verkauf des Prozessors in die Industrie für Steuerungsaufgaben und Terminalcontroller. Daher nahm man den aufkommenden Mikrocomputermarkt bei Intel anfänglich nicht ernst.

Intel 8085 (März 1976)

Jedoch war der 8080 noch kein vollwertiger 8 Bit Prozessor, der Taktgenerator (Intel 8224) und Bus Controller (Intel 8228) waren noch in separaten Chips untergebracht. Für die Anwendung hinderlich war auch das sehr umständliche Verarbeiten von Interrupts und dass der 8080 3 Versorgungsspannungen (-5, +5 und +12 V brauchte).

1976 entstand der Nachfolger 8085 der beide Bausteine auf dem Chip integrierte und eine leistungsfähigere Interruptbehandlung bot. Er hatte nun wie andere Prozessoren der Konkurrenz nur eine Versorgungsspannung von +5 V. Der 8085 umfasste 6500 Transistoren. Der 8085 fand noch lange Anwendung als Mikrocontroller mit maximal 6 MHz Taktfrequenz und befand sich z.B. an Bord des Rovers der Mars Raumsonde Pathfinder. Aufgrund seines Alters findet man ihn aber nur in einfachen Geräten wie Mikrowellenöfen oder Waschmaschinen.

Doch zur gleichen Zeit wie der 8085 entstand, war auch die Markteinführung des Zilog Z80, den ein ehemaliges Intel Entwicklungsteam in Eigenregie aus dem 8080 entwickelt hatte. Er verfügte über mehr Register, über 102 neue Befehle und die Logik für das Refresh Signal für RAMs, so dass das Design und die Programmierung eines Z80 Systems einfacher war. Sehr bald gehörte der 8080/85 zum alten Eisen und der Z80 wurde zum Verkaufsschlager. Dies lag auch daran das der Z80 die beiden externe Bausteine (Bus Controller und Refresh Controller) auf dem Chip integrierte - Ein Z80 System war somit einfacher herzustellen. Der Z80 war und ist bisher der einzige Prozessor der kompatibel zu einem Intel Prozessor ist und Intel den Markt wegnahm. Seitdem hat dies kein weiteres System mehr geschafft. Auch der Z80 wird heute noch hergestellt

Die 16 Bit Generation (1978-1985)

Intel 8086 (8.6.1978) (4-12 MHz)

Der Chip verfügt über 29000 Transistoren, leistet 800,000 Instruktionen/sec, NMOS / CMOS Technologie. Der erste 16 Bit Prozessor von Intel, in vieler Hinsicht aber ein ähnlicher Prozessor wie der 8008, denn während andere 16 Bit Prozessoren wie der Motorola MC 68000 volle 16 MB adressierten, konnte der 8086 nur 1 MB adressieren und - schlimmer noch, man konnte nicht den ganzen Adressraum durchgängig adressieren, sondern nur in Fenstern von je 64 Kilobyte (als Folge davon waren die größten Datenstrukturen so auch auf 64 K beschränkt).

Kleines Detail am Rande: Der 8086 war von Intel nur als Zwischenlösung gedacht. Man arbeitete seit 1975 an einem 32 Bit Prozessor, dem I432, dessen Design sich aber sehr komplex gestaltete und der hinter dem Zeitplan hinterher hinkte. Da die Konkurrenz (Motorola 68000) bald 16 Bit Prozessoren vorstellte, wollte man den 8086 als Zwischenlösung im Markt platzieren. Angeblich soll das gesamte Design in nur 3 Wochen entworfen worden sein. Dies zeigt auch der Name nach 4004, 4040, 8008, 8080 hieß der Prozessor nicht 160016 sondern bekam die nächste freie Nummer nach dem 8085 (verbesserter 8080). Die Verwandtschaft zum 8080 zeigen auch die gleiche Anzahl Allzweckregister (4) und die seltsame Verwendung von 64 Kilobyte Adressraum der im Speicher verschoben wird. Wichtig war die Komptabilität zum 8080. Ein Programm konnte ein Maschinenprogramm des 8080 in eines des 8086 umsetzen. Damit bewarb man den Prozessor.

Am 1.6.1979 erschien eine Version des 8086 mit nur 8 anstatt 16 Bit Datenbus, wodurch die Transferrate zum Speicher halbiert wurde und die Geschwindigkeit um 40-50 % sank. Diese Version war jedoch wegen der wesentlich preiswerteren Zusatzbausteine, die damals noch alle für 8 Bit Mikroprozessoren ausgelegt waren, sehr populär. Ein System konnte dadurch billiger gebaut werden, wenn auch unter gravierenden Geschwindigkeitsverlusten. So steckte im IBM PC ein mit 4.77 MHz angetriebener 8088. Von allen Prozessoren Intels hatte der 8086 die längste Blütezeit. Noch 1987 - 6 Jahre nach Einführung des IBM PC wurden mehr PCs mit 8086/88 als mit dem 80286 verkauft. Zwischen den ersten Versionen des 8088 und den späteren vollzog Intel einen Technologiewechsel. Die ersten mit 5 MHz waren in NMOS entwickelt worden, ab 8 MHz gab es entweder einen High-Speed NMOS (HMOS) Version oder eine CMOS Version, der langsamere 8088 wurde nur in CMOS hergestellt.

80186 (1981)

Wie der 8080 fehlten dem 8086 einige wesentliche Bausteine, die als Peripheriebausteine dazukamen, wie Interrupt Controller und DMA Controller. Der 80186 (1981) integrierte diese und erhöhte die Taktfrequenz recht schnell auf 20 MHz, die schon 1984 erreicht wurden. Die Geschwindigkeit des Prozessor betrug anfangs 800.000 Befehle pro Sekunde. Der 80186 bzw. die 8 Bit Version 80188 finden heute noch Anwendungen als Mikrocontroller z.B. in RAID Karten oder einfachen "Palm" ähnlichen Computern. (Bild links).

Obwohl der Intel 80186 deutliche Vorteile gegenüber dem 8086 hatte (er war bei gleichem Takt schneller und in höheren Taktfrequenzen lieferbar), blieb ihm der große Durchbruch versagt. Es waren lediglich 7 Neue Instruktionen und Operationen waren implementiert worden. Der 80186 war eine verbesserte Version des 8086, und er teilt das Schicksal des 8085, (einem verbesserten 8080): Andere Prozessoren schienen interessanter, zumal sich Intel des 80186 als "neuen" Prozessor viel teurer bezahlen ließ als den 8086, der nun schon einige Jahre älter war und entsprechend im Preis stark gefallen war. Intel machte dies allerdings nicht nur um viel Gewinn zu machen, sondern hatte Anfangs erhebliche Probleme eine gute Ausbeute beim Produktionsprozess zu erreichen. Noch mehr betroffen von diesen Produktionsschwierigkeiten war aber der 80286 Prozessor.

Gleichzeitig mit 80186 erschein der 80286. Im internen Vergleich war dieser erheblich leistungsfähiger und schneller. So wartete die Computerindustrie darauf, dass IBM einen Rechner mit dem 80186 oder 80286 Prozessor einführte, doch dies tat IBM erst im Jahre 1984 und dann mit dem 80286 Prozessor. Bis dahin hatten einige wenige Hersteller wie Osborne oder Apricot Rechner mit dem 80186 Prozessor vorgestellt. Die meisten blieben jedoch bei den 8086/88 Rechner, die preiswerter zu haben waren, da der 8086 nun schon 4 Jahre alt war und im Preis stark gesunken.

Durch Lizenzabkommen auf Druck von IBM gab es eine Reihe von Wettbewerbern die den 8086 in Lizenz fertigten. Später machte die Intel Probleme, da diese die Technologie übernehmen dürften.. Einige wie NEC verbesserten die CPU und waren damit sehr erfolgreich. Einige wie AMD fertigten bis 2001 noch Nachbauten des 80186 Prozessors. Intel selber stellt diesen im Jahre 2005 noch als Embedded Variante (bis zu 25 MHz schnell) her. Es gab eine Variante mit 8 Bit Datenbus (80188) und er konnte den 8087 Prozessor als Coprozessor nutzen.

Da der 8086 erheblich langsamer als der 1 Jahr später erschienene Motorola MC 68000 war begann man einen Coprozessor zu entwickeln, der zumindest bei den Fliesskommaoperationen das Manko ausbügelte. Dieser Coprozessor namens 8087 erschien 1982. Er reduzierte die Rechenzeiten dramatisch, bei einer Addition z.B. von 3.2 ms auf 10 µs. Er hatte jedoch zwei Nachteile: Er war extrem teuer und kostete 500-1200 DM. Zusätzlich und hatte ein sehr gewöhnungsbedürftiges Konzept das die Register als Stack verwaltete anstatt dass man sie direkt ansprechen konnte.

80286 (1.2.1982) (6-20 MHz)

Dieser Prozessor bestand aus 134.000 Transistoren in HMOS/CMOS Technologie. Ähnlich wie der 8080 war auch bei der 16 Bit Familie erst der zweite Prozessor ein vollwertiger 16 Bit Prozessor. Der 80286 erweiterte den Adressraum auf durchgehende 16 MB ohne die 64 K Fenster des 8086. Zugleich war der Prozessor erheblich schneller und leistete zirka 1.6 Millionen Instruktionen bei 6 MHz (spätere Versionen bis 20 MHz).

Da man jedoch auf die Architektur des 8086 Rücksicht nehmen musste, gab es beim 80286 zwei Modi: Einen 8086 kompatiblen wo man direkt nur das erste 1 MB nutzen konnte und einen echten 16 Bit Modus bei dem der volle Adressraum verfügbar war. Dieser Protected Mode ermöglichte auch den Schutz einzelner Speicherbereiche durch das Betriebssystem und somit, dass auf einem Prozessor mehrere Anwendungen gleichzeitig laufen konnten. Intel sah darin die Zukunft und hoffte das bald die meiste Software diesen "Protected Mode" nutzen würden.

Leider war ein Rückumschalten nicht möglich, so das DOS noch heute im 1 MB Modus bleibt. Der zweite Modus wurde bis zur Einführung von Windows 3.0 im Jahre 1990, also nach 8 Jahren so gut wie nie genutzt. Das behinderte auch etwas die Verbreitung der 80286 PCs. Es ist heute verwunderlich, das z.B. der IBM PC AT, der diesen Prozessor einsetzte erst 1984 auf dem Markt erschien, nahezu 2 Jahre nach Verfügbarkeit des Prozessors.

Der 80286 führte einige neue Befehle ein. Vor allem führte er die komplexeren Befehle wie Multiplikation und Division erheblich schneller aus und war somit bei gleicher Taktfrequenz 2.4 mal schneller als ein 8086. Ein adäquates Betriebssystem wie es OS/2 von IBM fehlte allerdings lange. Die 80286 Generation war die letzte bei der Intel noch relativ großzügig Lizenzen vergab. Neben Intel fertigten auch IBM, AMD, Harris, Fujitsu und Siemens diesen Prozessor. Beim 8086 gab es noch 12 Zweitlieferanten. Die Rechner mit dem 80286 waren bis Anfang der neunziger Jahre erfolgreich, bis Intel den 80386 SX Prozessor (siehe unten) in das gleiche Marktsegment platzierte.

Die ersten Typen schienen in HMOS Technologie, später konnte die CMOS Technologie ähnliche Schaltzeiten erreichen bei reduziertem Stromverbrauch.

Die 32 Bit Generation (1985-200x)

80386 (17. Oktober 1985) (16-33 MHz)

Entstanden in 0.8 µm CMOS Technologie, 275.000 Transistoren, 16-33 MHz, 6 MIPS. Der 386 er war der erste 32 Bit Prozessor von Intel. Der 386 er führte viele Neuerungen ein, und sein Code ist heute noch Basis für Windows. So konnte der 386 er nun zwischen dem echten 32 Bit Betrieb und dem 8086 kompatiblen Mode umschalten und sogar mehrere "Virtuelle" 8086 Modi gleichzeitig laufen lassen (z.B. für DOS Boxen unter Windows), er führte das Speicherschutzmanagement ein, das Programmen eigene Bereiche zuweist und diese vor Eingriffen aus anderen Bereichen schützt (leider in Windows 9x nicht gut umgesetzt) und die virtuelle Adressierung, bei der Festplattenspeicher RAM ersetzt. Wie es sich für einen 32 Bit Prozessor gehört, kann der 386 er volle 4 GB Arbeitsspeicher adressieren und 1 TByte virtuellen Speicher auf Festplatten ansprechen.

Am 16. Juni 1988 führte Intel den 386 SX ein, einen 386 (der dann 386 DX hieß) mit 16 Bit Datenbus, also eine Art moderner 8088. Es gab eine enorme Reklame in der Intel auf einer Seite in Rot das 286 durchstrich und auf einer neuer Seite im gleichen Rot eine einzige Zahl, die "386" zeigte. Die Botschaft: 286 ist out und mit dem 386 für 286 Boards werden 386 auch für alle erschwinglich. Bislang verkaufen sich 386 er Rechner nicht besonders gut, weil es unter dem Betriebssystem DOS keinen Unterschied machte ob man einen 386 oder 86 Prozessor hatte. Dies änderte Intel mit dem 386 SX und einer Kampagne unter der sinnigen Bezeichnung "3 ist mehr als 2".... Obgleich der 386 SX nicht schneller als ein 286 er war und es keine Software gab die ihn forderte, gingen nun mehr 386 SX Rechner über den Ladentisch als 286 Rechner.

Die ersten 80386 Rechner kamen übrigens nicht von IBM sondern vom Compaq. Als erster Rechner nicht 1 oder 2 Jahre nach Erscheinen des Prozessors sondern zeitgleich mit diesem. AMD hatte noch 1991-93 mit der 40 MHz Version ihres 386 Verkaufserfolge. AMD konnte lange Zeit keinen 386 Prozessor anbieten. Zuerst weil sie keine Second Source Lizenz von Intel mehr bekamen und so praktisch einen zum 386 Prozessor kompatiblen Prozessor selbst konstruieren mussten, später überzog Intel AMD mit Klagen, weil natürlich der 80386 auch den 8086 Microcode ausführte, für den AMD eine Lizenz von Intel hat, von der Intel nichts mehr wissen wollte. Erst 1991 konnte AMD seine Prozessoren verkaufen. Allerdings war der Markt für 386 Rechner damals noch immer boomend, weil die 486 Rechner deutlich teurer waren. Zudem hatte AMD eine 40 MHz Version im Angebot, während bei Intel bei 33 MHz Schluss war. Ein 40 MHz getakterer 80386 war aber in den praktischen DOS--Anwendungen nicht langsamer als ein mit 25 MHz getakteter 486. Dies änderte sich erst als Intel den Verbraucher mit der Kampagne "4 ist mehr als 3" von den Vorzügen eines 486 überzeugte. Von einigen Konkurrenten wie Cyrix oder IBM gab es auch Zwitter - Prozessoren die zwischen dem 386 und 486 lagen und z.B. einen kleinen Cache hatten, aber keine FPU.

Der 808386 wurde als Embedded-Prozessor noch sehr lange von Intel gefertigt, auch nachdem er im PC-Bereich obsolet war. Die embedded Variante mit integrierten Peripheriebausteinen wurde noch bis 2007 gefertigt. Mehr über die Architektur des 386 auf einer eigenen Seite.

80486 (10. April 1989, 25-100 MHz)

Im Vergleich zu der vier Jahre langen Pause zwischen 386 und 486 hat man das Design des Prozessors grundlegend geändert. Anders als beim 386 und 286 erweiterte man nicht mehr den Befehlssatz sondern integrierte externe Chips. Zum einen war dies der Cache, der seit dem 386 notwendig war. 8 KByte waren davon auf dem Prozessor integriert. Damit lief der Cache immer mit voller Prozessorgeschwindigkeit. Ein zweiter deutlich größerer Cache mit geringerer Geschwindigkeit (aber immer noch 8-10 mal geringerer Zugriffszeit als der Hauptspeicher) wurde auf der Hauptplatine integriert.

Zum zweiten war der Coprozessor integriert, der bisher ein separater Baustein war. Die Geschwindigkeit der FPU wuchs dadurch um zirka 60 % gegenüber einem 386 an, ebenso durch den nahen Cache die Geschwindigkeit der CPU. Doch erst 1993 überrundete der 486 den 386 in den Verkaufszahlen, da er lange sehr teuer war durch 1.2 Millionen Transistoren auf dem Chip (4 mal mehr als bei 386 er). Grund dafür war die Integration der FPU, die erheblich komplexer als der 386 er Kern war.

Ein Fehler in den ersten ausgelieferten Chips führten dazu, dass Intel 10.000 Prozessoren zu Schüsselanhängern umarbeiten musste - dies förderte nicht gerade das Vertrauen der Kunden in den neuen Prozessor.

Die Taktfrequenz wurde von anfänglich 25 MHz auf 50 MHz im Jahre 1993 gesteigert. Dies war eine recht langsame Steigerung. Dann entwickelte man die "Overdrive" Prozessoren: Der interne Takt wurde verdoppelt, später sogar verdreifacht, nicht jedoch der Speichertakt. So erreichte man innerhalb eines Jahres 100 MHz Takt. AMDs Modelle erreichten sogar 150 MHz. Die "Oberdrive" Versionen DX2 waren sockelkompatibel zu den mit 33 und 60 MHz getakteten Versionen, so dass Benutzer eine alte 486 CPU durch eine schnellere neuere CPU austauschen konnten. Das steigerte den Umsatz deutlich, da man nun für einen schnelleren Rechner nur eine neue CPU brauchte, nicht aber wie vorher ein neues Motherboard und meist auch neuen Speicher. Erstmals zielte eine Werbekampagne von Intel auch auf den Endnutzer und nicht PC-Hersteller.

Der 486 er war der erste Intel Prozessor der ab der 50 MHz Version einen Kühlkörper brauchte. Der 486 führte 80 % der am häufigsten eingesetzten Befehle in einem Takt aus und erreichte dadurch 20 MIPS. Der Prozessor wurde in High Speed CMOS Technologie gefertigt. Mit dem 486 fing auch die Taktfrequenzspirale an - Bisher waren diese nur langsam gestiegen, dies änderte sich nun dramatisch. Dazu bei trug auch eine fünfstufige Pipeline, bei der ein Befehl in Teilschritten abgearbeitet wurde, wodurch man den Takt steigern konnte.

Eine Version mit künstlich abgeschaltetem (aber funktionsfähigem) Coprozessor unter der Bezeichnung 486 SX führte Intel am 22.4.1991 erfolgreich ein, um AMD vom Markt zu verdrängen, da AMD mit dem 386 er Prozessor sehr erfolgreich waren. (siehe oben). In einer Werbekampagne wurde vor allem auf die Ziffer "4" abgehoben und dem Verbraucher suggeriert ein 486 er wäre technisch einem 386 Prozessor überlegen. Dies galt bei den ausgelieferten Exemplaren jedoch nur bedingt, denn es handelte sich um Exemplare die bei Auslesetests nur geringe Geschwindigkeiten erreichten und daher mit 16-25 MHz getaktet wurden.

2014 führte Intel erstmals Arduino-kompatible Microcontrollerkits ein. Der Kern des ersten, "Galileo" getauften war ein auf 800 MHZ getakteter 486-er Kern.

Pentium (22. März 1993) (60-233 MHz)

Nachdem man Zahlen nicht patentieren konnte erhielt der nächste Prozessor einen "echten" Namen. Damit wollte man vor allem die Konkurrenz (sprich AMD) weiter zurückdrängen, die bislang auch ihre Chips "386" oder "486" nannte. Manche wie Cyrix nannten sogar nur leicht veränderte 386 Prozessoren "486". Gegenüber dem 486 er wurde der Datenbus auf 64 Bit erweitert. Der Adressbus kann in einem bestimmten Modus nun 64 GB adressieren. Bislang wird dies allerdings nicht genutzt, da die Wechselzeit zwischen verschiedenen Speicherseiten in diesem Modus sehr hoch ist. Die Technologie wechselte von 0.6/0.5 µm (CHMOS/ biCHMOS) (Pentium), zur 0.35 µm (biCHMOS) (Pentium MMX). Mit 3.2 Millionen Transistoren (4.5 Millionen beim Pentium MMX) war der Pentium etwa 50 % schneller als ein gleich getakteter 486 und erreichte 100 MIPS. Eine wesentliche Verbesserung war ein getrennter Cache für Daten und Code von je 8 KByte. Er wurde mit der Einführung der MMX Version auf 16 KByte vergrößert. Die Taktfrequenz stieg von 60 MHz auf 233 MHz im Laufe der Jahre. Der Datenbus wurde von 32 auf 64 Bit verdoppelt.

Mit dem Pentium verabschiedete langsam und leise die x86 Architektur. Die x86 Serie steigerte während der Entwicklung nicht nur die Taktfrequenz sondern verringerte auch die Anzahl der Takte die ein Prozessor für einen Befehl brauchte. Diese lag beim x86 bei durchschnittlich etwa 10-12 Takten uns sank nun in Richtung einen Takt pro einfachem Befehl. Mit dem Pentium zogen zum ersten mal superskalare Einheiten bei der x86 Linie ein. Darunter versteht man, das der Chip mehrere Recheneinheiten für Integer und Fliesskommazahlen hat, auf welche die Befehle verteilt werden. Im Idealfall (wenn die Befehle nicht voneinander abhängen) kann man so die Geschwindigkeit bei 2 Einheiten verdoppeln. Der Pentium hat zwei ALU's und eine FPU. Zumindest Integer Befehle sollte er also doppelt so schnell wie ein 486 er ausführen.

Spätere Versionen des Pentium führten dann MMX ein, eine Erweiterung des Befehlssatzes bei dem man die 80 Bit langen Fliesskommaregister zweckentfremdete um gleichzeitig 4 × 16 Bit oder 8 × 8 Bit Zahlen der gleichen Rechenoperation zu unterziehen. Gleichzeitig verwendet der Prozessor intern auch mehr Register, als er nach außen zeigt, wodurch früher langsame Operationen plötzlich schnell werden - Wird ein Wert mehrmals benötigt so kann der Prozessor auf ein internes Register zugreifen anstatt den Wert aus dem Speicher zu holen. Wie jedoch bei späteren Erweiterungen wie SSE / SSE-2 und 3D-NOW ist die Softwareunterstützung dieser neuen Möglichkeiten recht bescheiden.

Auf den Kern der zweiten Pentium Generation (P54C) griff Intel zurück als sie den Coproesszor Xeon Phi schufen. Dieser auf einer Zusatzkarte angesiedelte Prozessor der nur reine Rechenaufgaben lösen soll und als Konkurrenz zu den GPUs der Grafikkarten platziert wure hat 48 bis 50 P54C Kerne in der ersten Generation.

Pentium Pro (1. November 1995)

Mit einem Sprung auf 5.5 Millionen Transistoren und den 0.5 µm biCHMOS Prozess schaffte dieser Prozessor 440 MIPS bei 150-375 MHz. Mit dem Pentium Pro steckte Intel den bislang größten Misserfolg in ihrer 20 Jährigen x86 Erfolgsstory ein. Man hatte die Architektur des Pentiums auf mehr superskalare Einheiten erweitert - zwei Fliesskomma- und zwei Integer-Einheiten und die RISC Engine auf schnelle 32 Bit Verarbeitung getrimmt. Dazu trug eine 12 stufige Pipeline bei, die Befehle zwischenspeicherte und dekodierte während diese an die 4 Recheneinheiten weitergereicht wurden. Um die Geschwindigkeit weiter zu erhöhen wurde der 256 Kilobyte große L2 Cache direkt neben dem Prozessor auf demselben Die untergebracht, so konnte er mit voller Taktfrequenz arbeiten, anstatt wie beim Pentium mit Halber oder einem Drittel der Taktfrequenz.

Nach dem Superskalaren Design des Pentium wurde nun auch der CPU Kern ersetzt. Die Befehle in kleinere elementare Einheiten zerlegt so genannte Micro-Ops), Die nun mehrere RISC Rechenwerke antreiben. So ist es möglich mehrere Befehle gleichzeitig zu verarbeiten, wenn diese nicht aufeinander aufbauen z.B. ein Befehl auf dem Ergebnis eines anderen. Damit das ganze effektiv geht, müssen Abhängigkeiten erkannt werden und bei Verzweigungen schon mal geahnt werden wie es weiter geht. Das alles machte eine ausgeklügelte Logik auf dem Chip notwendig, die aber bei dem Pentium Pro zu seiner 16 Bit Schwäche führte. Intel maß diesem keine große Bedeutung ein, sollten nun doch 32 Bit Betriebssysteme wie Unix und Windows NT die alten 16 Bit Betriebssysteme DOS und Windows 3.1 ersetzen.

Pentium Pro mit Cache Verhängnisvoll war jedoch, das wenige Monate vor dem Pentium Pro erschienene Windows 95, anders als Microsoft die angekündigt hatte kein volles 32 Bit Betriebssystem war sondern sehr viele 16 Bit Altlasten mitführte. Der für 32 Bit optimierte Prozessor brach dabei in der Performance ein und war nur so schnell wie ein um ein Viertel langsamer getakteter Pentium. Dabei war der Prozessor durch den integrierten Cache sehr viel teurer. Nur unter Windows NT oder einem anderen 32 Bit Betriebssystem war die volle Leistung verfügbar. So konnte man den Prozessor zwar als Server Prozessor (mit Windows NT oder Unix als Betriebssystem verkaufen, aber nicht als PC Prozessor. Der lange Zeit weltgrößte Supercomputer ASC White basierte auf über 9000 Pentium Pro Prozessoren mit anfänglich 180 MHz, später auf 375 MHz erweitert.

Als zweites Handicap zeigte sich bald, dass das Konzept den Cache auf dem Prozessor zu integrieren falsch war. Sehr viele Prozessoren hatten Defekte im Cache. Die Ausbeute sank, da mit dem Cache auch der Prozessor funktionsuntüchtig war. Schlimmer noch, anders als den Prozessortakt konnte man die Geschwindigkeit des Caches nur langsam steigern. Der Pentium Pro war jedoch der erste multiprozessortaugliche Prozessor von Intel, die damit erstmals in größerem Maße im Servermarkt mitspielen konnten. Aufgrund des möglichen Potentials wurde die Pentium Pro Architektur Grundlage für die Nachfolger Pentium II+III die diese von 150 auf 1200 MHz steigerten. Im Prinzip stecken bis 2014 in den Prozessoren die Pentium Pro Mikroarchitektur - mit mehr Einheiten und diversen Optimierungen, doch die Grundprinzipien haben sich seitdem nicht geändert.

Pentium II (7. Mai 1997)

Taktfrequenz: 233-450 MHz: 7.5 Millionen Transistoren (ohne Cache, 0.25 µm Prozess) 466 MIPS Nach dem erfolglosen Versuch des Pentium Pro mit Cache auf dem Chip integrierte man beim Pentium II den Cache nicht auf dem Prozessor, aber auf dem Modul direkt neben dem Prozessor. Erstmals war der Prozessor damit nicht ein Chip mit vielen Beinchen, sondern ein Plastikmodul dass man in einen Steckplatz einschob. Dadurch muss man bei Fehlern bei der Herstellung des Caches nicht gleich den ganzen Prozessor wegwerfen. Der Pentium II basiert aber auf der Technologie des Pentium Pro, nicht des Pentium. Der L1 Cache wurde auf 32 KByte vergrößert. Die Low Cost Version des Pentium II ist der Celeron, zuerst ohne L2 Cache, dann mit 128 KB L2 Cache im Prozessor integriert. Dieser Cache ist im Bild rechts des Pentium III gut zu erkennen. Die Taktfrequenz stieg im Laufe der Jahre von 233 MHz auf 450 MHz an.

Es gab beim Pentium II keine Veränderung der Architektur wie neue Einheiten oder neue Befehle. Im wesentlichen setzte er die Lehren die man mit dem Pentium Pro gemacht hatte um in ein Design welches preiswerter zu fertigen war. Neu war nur, dass man den Prozessor im 0.25 Mikrometerprozess herstellte.

Pentium III (1999)

Neuere Versionen des Pentium II heißen ab 1999 Pentium III, es handelt sich jedoch mehr um eine Marketingmaßnahme als eine echte Neuentwicklung. Lediglich der CPU Kern des Pentium III ist schneller, er wird im 0.18 µm Prozess gefertigt, wodurch die Geschwindigkeit auf 1000 MIPS ansteigt. Er hat jedoch die gesamte Architektur des Pentium II. Anders als beim Pentium hat die Pentium Pro Architektur jeweils zwei ALU's und einer bis zwei FPU's (die zweite aber erst ab dem Pentium III mit SSE). Dazu kommen je eine Ladeeinheit (holt Daten und Code) und je eine Speichereinheit für Daten und Code. Alle 5-6 Einheiten hängen aber an einer Einheit welche die Daten vom Speicher holt - dies ist der Flaschenhals eines Pentium II/III Systems. Später hat man das Modul in dem die Chips saßen geändert.

Pentium III Eine leichte Erweiterung der MMX Architektur ist SSE, man kann damit zwei Fliesskommaberechnungen mit einfacher Genauigkeit anstatt einer doppelt genauen ausführen. Bei MMX gingen Operationen nur mit Ganzen Zahlen. Sie ist der einzige Architekturunterschied zwischen einem Pentium II und III Systemen. Sie wurde kurz nach Vorstellung des Pentium III eingeführt, die erste Serie hatte jedoch noch keine SSE. Für die SSE wurden 70 neue Befehle eingeführt. Man verwendet dazu die Register der FPU, die von einer auf zwei Recheneinheiten erweitert wurde. Anders als bei MMX muss man nicht zwischen SSE und FPU Modus umschalten. Neu ist dass die 8 SSE Register 128 Bit breit sind (anstatt 80 Bit) und die Berechnungen auch mit 32 Bit Fliesskommauzahlen möglich sind.

Die Transistorzahl stieg dadurch von 7.5 auf 9.5 Millionen an. Ähnliches hat - allerdings in einfacherem -Maßstab schon 1997 der Konkurrent AMD mit 3D Now eingeführt. Alle Multimedia Einheiten (sowohl von AMD wie auch von Intel) wurden in den ersten Jahren aber kaum von der Software genutzt.

Die Steigung der Rechengeschwindigkeit der Prozessoren ab Pentium Pro gelang vor allem durch Verkleinerung der Maske und damit kürzeren Wegen und der höheren Taktgeschwindigkeit weniger durch Architekturverbesserungen. Das Design des Pentium Pro ist mit Sicherheit das bei dem die Taktrate am stärksten stieg. Die ersten Pentium Pro erreichten 166 MHz, derzeit sind Pentium III bis 1.2 GHz verfügbar, also eine Taktsteigerung um das 8 fache.

Der Pentium III wurde vom Nachfolger Pentium 4 nicht in allen Marktsegementen abgelöst. Vor allem im Bereich des mobilen Computings wurden nach wie vor Prozessoren auf Basis des Pentium III gefertigt (Pentium-M). Dies lag daran, dass das Design weniger Strom verbrauchte und man es so für die stromsparenden Prozessoren die in Notebooks stecken weiterbehielt.

Pentium 4 (November 2000)

(42 Millionen Transistoren 0.18 µm Prozess, > 1400 MHz). Um den Pentium 4 streiten sich die Geister. Zum einen vereint der Chip einige progressive Details, zum ändern ist bei den ersten Vergleichen gegenüber dem Athlon wenig davon zu merken. Dies liegt darin, das die Befehle um 20 % langsamer als beim Pentium III abgearbeitet werden. Man hat bei diesem Chip das P6 Design des Pentium Pro, das im Pentium II+III steckt modernisiert, aber nicht vollständig abgelöst.

Anders als der Pentium III speichert z.B. der L1 Cache nicht x86 Instruktionen, sondern sitzt hinter dem Befehlsdekoder und speichert vollständig dekodierte RISC Operationen. Maximal 12 KOps, was wahrscheinlich etwa 100 Kilobyte entspricht. Wobei der Cache so intelligent sein soll, nur die oft benötigten Instruktionen zu speichern. Ist der Code relativ klein und wird oft durchlaufen, so beschleunigt das die Ausführung beträchtlich, was z.B. das Enkodieren von Multimediadateien betrifft. Die Pipeline ist nun auf 20 Stufen angewachsen, was einen höheren Takt erlaubt (pro Stufe muss man weniger tun). Kommt es aber zu einem "Pipeline Stall" - der Inhalt ist ungültig z.B. durch einen Sprung so braucht der P4 eine halbe Ewigkeit die Pipeline wieder anzutreiben. Deswegen hat der P4 acht mal mehr Speicher als ein Pentium II um Sprungziele spekulativ vorausberechnen. Dafür liest der Bus bei 100 MHz jeweils 4 Bytes auf einmal, wodurch die Performance enorm steigt - wenn der P4 sehr teuren RAMBUS Speicher bekommt.

Die RISC Engine hat inzwischen 128 Registern intern - der Programmierer sieht aber nur die 8 Register des 80386. Ein ausgeklügeltes Register Remapping soll so die Performance steigern. Im Prozessor tummeln sich nun 7 Einheiten: 4 ALU's , Zwei Load/Store Einheiten und nur eine FPU. Zwar sollen die ALU's theoretisch doppelt so schnell wie beim Pentium III sein, doch viel von der dann insgesamt 4 fachen Performance sieht man in der Praxis nicht - dafür sieht der Pentium 4 bei FPU Operationen schlechter als ein Pentium III oder gar Athlon (mit zwei bzw. drei FPU's) aus. Ausgeglichen soll dies durch eine verbesserte ISSE Version, die nun SSE heißt werden. Dazu sind die SSE Fliesskommaregister nun von den FPU Registern unabhängig und mit 128 Bit breiter, so das nun 4 Fliesskommaoperationen mit einfacher oder zwei mit doppelter Genauigkeit simultan ausgeführt werden können. Die Möglichkeit doppelte Genauigkeit zu nutzen ist neu und beschleunigt vor allem wissenschaftliche Anwendungen. Athlon hat diese Technik in seinen neueren Modellen übernommen.

pentium 4 Prescott Kern Mit optimiertem Code - Ausnutzung der SSE Einheit, kleinem lokalen Code der in den L1 Cache passt, kann der Pentium 4 erheblich schneller als der Pentium 3 sein. Dies gilt jedoch für die heute verfügbaren Anwendungen in der Regel nicht, so das ein Pentium 4 mit 2 GHz in einigen Benchmarks schlechter da steht als sein kleiner Bruder mit 1.26 GHz oder Ein Athlon mit 1.4 GHz. Intel punktet hier primär über die Taktfrequenz. Die Möglichkeit diese rapide zu steigern wurde auch als wichtigster Vorteil der Pentium 4 Architektur genannt.

Wie beim Pentium II/III gab es auch hier einige Verbesserung. Man nutzte die Fortschritte in der Technologie die Caches zu verbessern und die Sprungvorhersagetabelle noch größer zu machen. Bei steigendem Takt wurde auch die Pipeline länger. Lag sie beim ersten Pentium 4 noch bei 20 Stufen so haben die 3.2 GHz Kerne schon 32 Stufen.

Fortschritte in der Architektur gab es nur zwei: Zum einen die Hyperthreading (HT) Technologie. Dies es bei Pentium 4 HT ab 2003 gab. Bei dieser nutzt man die Tatsache aus, das intern mehrere Rechenwerke und Register vorhanden sind, als man bisher direkt ansprechen konnte. Indem man einen zweiten Registersatz mit eigener I/O Logik einführte, erscheinen die HT Prozessoren für das Betriebssystem als Doppelprozessorsysteme. Leider ist der Speicherbus und auch die Pipeline zum Enkodieren von Daten noch beiden gemeinsam. Von den von Intel angegebenen 25 Prozent Performancesteigerung bleiben in den meisten Anwendungen daher nur 10 % übrig, und diese auch nur, wenn diese auf ein Mehrprozessorsystem ausgelegt ist.

Eine zuerst nur für die Server Linie (XEON) verfügbare Erweiterung ist IA64 - So nennt Intel die Möglichkeit 64 Bit Befehle auszuführen und mehr als 4 GB Speicher anzusprechen. Diese hat Intel von AMD lizenziert: Der Xeon ist dann befehlskompatibel zum Athlon 64. Im Gegenzug kann AMD bei den Athlon 64 Prozessoren die SSE3 Erweiterung von Intel einsetzen.

Die Anzahl der Transistoren ist im Laufe der Jahre rapide angewachsen. Die ersten Pentium 4 (1.4-1.8 GHz) hatten 42 Millionen Transistoren und einen 256 KB großen L2 Cache. Ab 2 GHz Takt wurde dessen Größe auf 512 KB verdoppelt, wodurch die Transistorenzahl sich auf 55 Millionen erhöhte. Beim Pentium 4 HT (ab 2.6 GHz) ist neben dem verdoppelten Registersatz auch der Cache auf 1 MByte angewachsen, wodurch die Transistorenzahl auf 125 Millionen anstieg. Die "Extreme Edition" Versionen verfügen sogar über 2 MByte Cache und 169/178 Millionen Transistoren (0.13 beziehungsweise 0.09 nm Technologie).

Pentium 4 Dual Core (Januar 2006)

Pentium D Es zeigte sich, dass die Pentium 4 Architektur nicht das hielt was man sich von ihr versprach. Die Beschränkung der Funktionseinheiten und die lange Pipeline sollten es erlauben die Geschwindigkeit schnell zu steigern. Auf Entwicklerkonferenzen kündigte Intel an, man könnte den Takt auf 7-9 GHz steigern. Ab Ende 2003 zeigte sich, das dies nicht möglich war. Von Ende 2002 bis Ende 2005 stieg der Takt nur von 3 auf 3.8 GHz, während er vorher in 2 Jahren von 1.4 auf 3 GHz gestiegen war.

Der Grund waren die bei steigendem Takt überproportional ansteigenden Leckströme. Ein Pentium 4 "Extreme Edition" verbriet bis zu 130 Watt. Es war einfach nicht möglich die Prozessoren so weit zu kühlen, damit Sie hohe Takte erreichten. Die Konkurrenz von AMD setzte bei ihrem Athlon dagegen auf viel mehr parallel arbeitende Einheiten und kam so mit einem niedrigeren Takt aus.

Die Lösung die Leistung weiter zu steigern, ist es mehrere Prozessorkerne zu integrieren. Ab 2006 lösen die Doppelkernprozessoren nun die Einzelkernprozessoren ab. Anders als bei der Hyperthreading Technologie handelt es sich um 2 komplette Prozessorkerne auf einem Chip. Lediglich der L3 Cache und Speicherbus werden gemeinsam genutzt. Theoretisch kann ein Doppelkernsystem die Anwendung stark beschleunigen. Dazu ist es aber nötig das diese die Arbeit in einzelne Prozesse oder Threads unterteilt. Das eine Anwendung automatisch schneller wird, wie dies bei den Vorgängern war, ist nun nicht mehr gegeben. Ob es so lange dauert wie bei den Vorgängern bis die Anwendungen mehrere Kerne unterstützen ist Anfang 2006 noch offen. Zu diesem Zeitpunkt profitieren nur wenige Anwendungen von zwei Kernen. Insbesondere bei Spielen, die große Anforderungen an den Prozessor stellen gibt es kaum Unterstützung. Andererseits ist die Einführung mehrerer Kerne die wohl bedeutendste Änderung der Architektur in den letzten Jahren und es ist schwer denkbar, dass Softwarehersteller diese ignorieren können.

Die Doppelkernprozessoren verfügen nun auch über die 64 Bit Erweiterung von AMD. Diese erweitert alle Register auf 64 Bit Breite und bietet einen physikalischen Adressraum von 40 Bit, also 256 mal mehr als der Pentium 4 direkt und 16 mal mehr als er mit PAE ansprechen konnte. (Der PAE Modus wurde aber wegen seiner Langsamkeit kaum genutzt). Um zwischen 32 und 64 Bit Modus umzuschalten wurden einige unbenutzte Opcodes benutzt. Es stehen im wesentlichen dieselben Befehle wie im 32 Bit Modus zu Verfügung, aber doppelt so viele Universalregister. Wichtig ist aber vielmehr, dass der Prozessor sowohl im 32 wie auch im 64 Bit Modus sehr schnell ist.

Nach Intel's Planungen werden 2006 die Einzelkernprozessoren aussterben und die Doppelkernprozessoren sie ablösen. Ab 2007 sind dann Prozessoren mit 4 Kernen und 2008/2009 sollen Prozessoren mit 8 Kernen folgen. Bei der ersten Generation handelt es sich um zwei vollständige Kerne des Vorgängermodells die an einem gemeinsamen Speicherbus hängen. Dieser Speicherbus ist bei Intels Architektur das Nadelöhr. Er muss nun nicht nur (bei unveränderter Bandbreite) nun die Daten beider Kerne transportieren, anstatt nur einem, sondern über ihn gleichen auch beide Prozessoren ihre Caches ab. Bei den Konkurrenzmodellen von AMD gibt es dagegen eine interne Verbindung zwischen den Prozessoren, welche den Speicherbus entlastet.

Technisch gesehen verfügt jeder Kern über eine SSE2 und SSE3 Einheit und jeweils einen 32 KB L1 Cache für Daten und Code. 4 Alus und 2 logische Einheiten sind in den Integer Recheneinheiten untergebracht, aber nur eine FPU, die jedoch getrennte Funktionsblöcke für SSE, MMX und FPU hat und in einem Takt eine Multiplikation und Addition ausführen kann.

Die erste Generation der Doppelkern-CPUs waren zwei Kerne auf einem Die. Jeder hatte eigene L2-Caches. Die zweite Generation band die beiden Kerne an einen gemeinsamen L2 Cache. Das nutzte diesen effizienter aus, da so nicht Daten in beiden L2-Caches sind (Betriebssysteme wechseln dauernd die Tasks zwischen den Prozessoren um das Thermalbudget gleichmäßig auszunutzen, bei getrennten L2-Caches sind die Daten dann doppelt vorhanden). Der gemeinsame Speicherbus wurde bei den ersten Exemplaren mit 667 MHz angetrieben, was einer Datenrate von 5.33 GByte/sec entspricht. Neu ist das die Kerne nun von der Mobilprozessorlinie abstammen und damit weniger Strom verbrauchen als ihre Vorgänger. Der Stromverbrauch stieg in den letzten Jahren vor allem durch Leckströme stark an. Dies soll bei zukünftigen Generationen wieder besser werden. Der Takt der ersten Exemplare lag bei 2.8 GHz und die Prozessoren mit 230 Millionen Transistoren wurden im 90 nm Prozess hergestellt.

Der zweite Generation nennt sich dann Core 2 Architektur. Die Core 2 Architektur basiert auf dem Pentium M, der Mobiltechnologie mit geringem Stromverbrauch. Diese zweite Generation wird im 65 nm Prozess hergestellt. Die Hyperthreading Einheiten sind nun wieder aus dem Design verschwunden, dafür ist der Cache nun doppelt so groß und er kann gemeinsam benutzt werden, und somit effizienter ausgenutzt werden. Neu ist die Vanderpool Technologie, die Virtualisierungen erleichtert also die Emulation anderer Betriebssysteme oder das Betreiben mehrerer Betriebsysteme zeitgleich auf einem Rechner. Neu sind auch einige Multimedia Befehle, wodurch die SSE Einheit nun SSE4 heißt.

64 Bit (2001 - ): Das Ende der x86 Linie

Itanium (2001)

Der Chip besitzt 25,4 Millionen Transistoren ohne Cache 320,4 Millionen!!! mit Cache. Er wird hergestellt im 0.18 µm CMOS 6 Layer Prozess. Der Itanium ist Intels erster 64 Bit Prozessor. Seine Einführung musste wegen Schwierigkeiten um fast zwei Jahre verschoben werden. Wichtig in dieser Familienbetrachtung: Der Itanium ist nicht der Nachfolger des Pentium, sondern soll eine neue 64 Bit Linie gründen, die auf den Server und Workstation Markt zielt. Zumindest mittelfristig wird Intel daher eine 32 Bit Linie (Pentium 4 und Nachfolger) und eine 64 Bit Linie betreiben. Intel hat allerdings betont, das sie dem Itanium Design mehr Chancen einräumen.

Damit 32 Bit Software auf dem Itanium läuft gibt es einen x86 Emulator, der jedoch nur 1.5 Millionen Transistoren auf dem Chip umfasst - Etwas mehr als beim 486, so das man in diesem Modus etwa so schnell ist wie ein Pentium II mit 300 MHz ist. Er dient nur dadurch den Übergang auf die 64 Bit Generation zu erweitern.

Die Caches des Itanium sind riesig: Beben zwei getrennten L1 Caches für Daten und Code von je 16 KByte und einem gemeinsamen 96 KByte Cache verfügt er über einen 2 bzw. 4 MB (je nach Version) großen L3 Cache, der wie beim Pentium Pro massiv den Preis bestimmt. Anders als man es von einem 64 Bit Prozessor vermutet ist der Adressraum nur 44 Bit (physikalisch) bzw. 51 Bit (virtuell) breit.

Die 8086 Linie ist eine typische CISC Linie, die seit dem Pentium ein RISC Prozessor ist, der einen CISC Prozessor emuliert. Dies hat Intel beim Itanium aufgegeben und mehrere Dinge verbessert:

Viel mehr Register: Anstatt vier Universalregister für den Programmierer stellt der Itanium nun 128 Integer und 128 FPU Register zur Verfügung.
Mehr Recheneinheiten: Der Itanium verfügt über 4 Integer Recheneinheiten, 2 Fliesskommaeinheiten (4 wenn im Modus SSE, d.h. Zwei Variablen zugleich mit denselben Operationen bearbeitet werden), 2 Einheiten zum Laden und Speichern und 3 zur Berechnung von Sprungzielen.
Eine neue Code Architektur namens EPIC

EPIC resultiert aus den seit dem Pentium gewonnenen Erfahrungen der spekulativen Ausführung und des parallelen Bearbeiten des Codes. Immer mehr Logik musste dafür geopfert werden. Es galt den Code so in die CPU zu schleusen das er möglichst viele der internen Codeeinheiten ausnutzt. Ein Problem, denn die ursprüngliche Softwarearchitektur des 8086 und auch noch seiner Nachfolger bis zum Pentium geht von einer und nicht mehreren Recheneinheiten aus. Nun dreht Intel den Spieß um: Der Compiler der den Source Code kennt kann dies erheblich besser und einfacher erledigen. So wird bei EPIC ein Bündel von 3 Befehlen zu 128 Bit zusammengeschnürt. Die 3 Befehle haben je eine feste 41 Bit Länge und die verbleibenden 5 Bits enthalten Informationen über die Abhängigkeiten der 3 Befehle untereinander und zu den nachfolgenden und vorhergehenden. Diese setzt der Compiler, so das sie dem Prozessor schon zur Verfügung stehen wenn er die Befehle ausführen. Derzeit sind noch nicht alle 32 Kombinationen erlaubt, dies kann sich jedoch bei zukünftigen Versionen ändern.

Bei herkömmlichem Compilercode ist dies keine schlechte Lösung. In Benchmarks glänzt der Itanium in der Fliesskommaleistung deutlich, während er bei Integer Rechnungen im Mittelfeld verbleibt. Dafür ist für einen Prozessor mit derartig vielen Funktionseinheiten die Integrationsdichte von 25 Millionen Transistoren gering. Kompensiert wird dies aber durch den großen L3 Cache, der das Die auf 200 mm² vergrößert und den Stromverbrauch auf 130 Watt steigert.

Die relativ bescheidene Integerperformance soll der Itanium II ab Ende 2002 erheblich verbessern. Geleistet hat er es nicht. Wie andere Versuche Intels eine neue Architektur einzuführen scheiterte der Ansatz. Obwohl der Itanium als Serverprozessor ausgelegt war, also keine Konkurrenz zu der x86-Linie darstellt, war ihm auch im Serverbereich kein Erfolg beschieden. Der Prozessor war teuer, der Takt war niedrig. Nachdem auch diex86-Linie 64 Bit konnte, und zwar durch eine einfache Erweiterung des Befehlssatzes gab es auch für die Käufer von Servern wenige Argumente für den Itanium. Systeme auf Basis des Xeon waren billiger und nicht langsamer.

Die weiteren Architekturen die nun auch eine Vielzahl von Prozessoren mit unterschiedlichen Namen aufweisen führe ich in dieser Zusammenfassung nicht auf, sie haben sich seit der Wiedereinführung der P6-Mikroarchitektur als "iCore-Mikroarchitektur" auch kaum geändert. Hier verweise ich auf die detaillierten Artikel zu jeder Mikroarchitektur in dieser Sektion.

Die 64 Bit Generation - ein Neuanfang?

Man kann zu Intel stehen oder auch nicht eines ist bemerkenswert: Intel und AMD haben es geschafft durch Anwendung aller Tricks die heute bei modernen Prozessoren möglich sind, die Geschwindigkeit stetig zu steigern und in der Oberliga der schnellsten Prozessoren mitzuspielen. Doch der Blick über den Zaun zeigt die Grenzen: Compaqs Alpha 21264 hat noch immer die Geschwindigkeitskrone, bei deutlich weniger MHz als ein P-III oder Athlon und bei nur 15 Millionen Transistoren (mit Cache) anstatt 37 wie beim Athlon. Einen Vergleich der Mitte 2001 verfügbaren Prozessoren in einem gängigen Test für Workstations zeigt folgende Tabelle:

Prozessor	Takt (MHz)	SPEC 2000 Int Base	SPEC 2000 FP Base	pro MHz
Pentium III	1080	454	329	0.725
Athlon	1333	482	414	0.672
Pentium 4	1700	575	593	0.687
Itanium	800	345	700	1.306
Ultrasparc III	900	438	427	0.961
Alpha 21264A	833	518	590	1.330
HP PA 8700	750	569	526	1.460
MIPS R14000	500	410	436	1.692
IBM RS64 IV	600	295	245	0.900

Man sieht das die X86 Familie die niedrigste Performance pro MHz hat. Trotz dreier verschiedener Architekturen ist die Leistung pro MHz Takt bei Athlon, Pentium III und Pentium 4 fast identisch. Die Höchste Performance weißt der HP PA Prozessor auf, sein CISC Design lässt aber keinen hohen Takt zu.

Der Grund ist darin zu suchen, das ein heutiges X86 Design folgendes macht: Es decodiert die komplexen X86 Befehle und zerlegt Sie in einfachere RISC Mikrooperationen (µOps). Diese werden dann erst ausgeführt. Dabei werden die 14 Register des x86 (wovon dem Programmierer für Daten nur 4 zur Verfügung stehen) auf 32 oder 64 Register "umgemappt" und versucht die Befehle parallel in verschiedenen Einheiten auszuführen. Es ist eine Riesenleistung, das dieser "X86 Emulator on Chip" überhaupt solche Rechenleistungen erbringen kann. Mit dem Itanium stellt Intel eine neue Architektur vor, die schon bei den ersten Mustern nahezu doppelt so schnell wie die X86 Architektur ist.

Die Botschaft ist klar: Wir unterstützen die derzeitige Architektur weiter: Wer 32 Bit möchte greife zum Pentium 4, wer auf Zukunft baut, zum Itanium. Damit diesem nicht die derzeitigen Betriebssysteme verschlossen sind, hat er noch den Kompabilitätsmodus. Man rechnet damit das es eine Situation gibt wie es heute schon bei Windows ist: Es gibt Windows ME mit noch alten 16 Bit Treibern, DOS Kompatibilität und direktem Zugriff auf die Hardware für Spiele - Schnell für Spiele aber unsicher und anfällig. Und es gibt Windows 2000 mit echten 32 Bit Code, einem Kern der Programme voneinander abschottet und Zugriff auf die Hardware nur über Windows Funktionen zulässt: Spiele laufen wenn überhaupt, nur langsam, aber ist relativ stabil und sicher. Ähnlich könnte es sich in einer Übergangszeit mit dem 32 und 64 Bit Modi verhalten.

Doch Intel hat die Rechnung ohne AMD gemacht. AMD hat angekündigt im zweiten Halbjahr 2002 auch einen 64 Bit Prozessor vorzustellen. Der Opteron ist allerdings kein Neudesign sondern ein erweitertes Athlon Design. Der "Sledgehammer" erweitert einfach die Register von 32 auf 64 Bit und führt je 8 neue 64 Bit und MMX Register ein. Für den Programmierer steigert sich so die Zahl der Allzweckregister von 4 (AX, BX, CX und DX) auf 12 - auch das kann ein Vorteil gegenüber dem P4 Design sein, ob der Sledgehammer aber mit dem Itanium mithalten kann, bleibt abzuwarten. Der Sledgehammer wird schon mit 3 GHz und der 3.5 fachen Performance eines 1 GHz Athlon starten - im 32 Bit Modus, wo der Itanium sehr schlecht aussieht.

Doch AMD zielt auch auf einen anderen Markt: Intel platziert seinen Prozessor als Konkurrenz zu Workstations oder Servern in denen derzeit Alpha, SPARC und MIPS Prozessoren werkeln. Zudem soll er multiprozessortauglich sein, bis zu 512 Prozessoren können zusammengeschaltet werden. Der Sledgehammer offeriert volle 32 Bit Performance anders als der Itanium und lässt zugleich einen 64 Bit Modus zu der moderate Änderungen beinhaltet - der gesamte 64 Bit Teil nimmt nur 5 % der Chipfläche ein. Er zielt damit gegen den Pentium 4 und den PC Markt. In einem Markt in dem Kompatibilität alles ist und 16 Jahre nach Einführung des ersten 32 Bit Prozessors von Intel, noch 16 Bit Treiber in Windows ME stecken, scheint dies kein dummer Ansatz zu sein.

Hinweis zu Geschwindigkeiten und der Leistung

Es gibt nichts umstritteneres als die Leistung eines Mikroprozessors. Insbesondere wenn man wie in diesem Artikel eine Familiengeschichte über 30 Jahre skizziert. Die angegebenen Werte sind daher nur schwer vergleichbar. Auch die Transistoren pro Chip sollen nur einen Anhaltspunkt über die technische Entwicklung geben. Seit dem Pentium Pro ist der L2 Cache ein externer Baustein (Ausnahme Celeron). Er ist nicht bei der Transistorzahl berücksichtigt. Pro Kilobyte L2 Cache fallen 48000 pro KByte L1 sogar 64000 Transistoren an, d.h. ein 256 Kilobyte L1 Cache alleine hat mit 16 Millionen Transistoren erheblich mehr als ein Pentium III. Allerdings benötigen Caches erheblich weniger Platz als die Logikeinheiten.

Auch die Transistorzahl lässt nur grobe Vergleiche zu. So waren MC 68000 (68000 Transistoren) und 80286 (134000 Transistoren) etwa gleich schnell. Heute sind es Pentium III (9.5 Millionen) und Athlon (17 Millionen ohne L1, 25 Millionen mit 128 K L1, 37 Millionen mit L2 Cache).

Wer es trotzdem genau wissen möchte für den habe ich hier die "HL Benchmarks" der ct 10/1987 in abgewandelter Form veröffentlicht. Es handelt sich um einige kleine Routinen in Turbo Pascal die Arithmetik (Fliesskomma und Integer), Transzendente Funktionen, Textausgabe, Grafikausgabe und schreiben auf die Festplatte checken. Die Modifikation beziehen sich auf größere Schleifen (sonst liegen die Messzeiten heute im Millisekunden bis Mikrosekunden Bereich) und die Einführung einer Vergleichstabelle.

Die sehr einfachen ct Routinen, wurden schon in der ct' 10/1987 veröffentlicht. Sie sind für heutige Verhältnisse so klein und einfach, das sie vollständig im L1 Cache laufen. Der Speicher spielt also nahezu keine Rolle. Zudem sind zahlreiche Operationen abhängig und können nicht von auf mehrere ALU's verteilt werden. Sie geben also nur einen Trend vor, nicht eine vergleichbare Größe. Da vor dem 486 er die meisten Rechner ohne Fliesskommaprozessor arbeiteten gibt es die Benchmarks in 2 Versionen: Für Fliesskommaprozessor und ohne. Letztere ist heute ohne Bedeutung. Der Sourcecode in Pascal liegt bei falls jemand diesen auf einen anderen Rechner portieren möchte. Über weitere Ergebnisse Insbesondere von nicht x86 Rechnern würde ich mich freuen. Bei Windows empfiehlt es sich die Programme im MS-DOS Modus und nicht in der MS-DOS Box laufen zu lassen, man erhält sonst zu schwankende Werte.

ct-Benchmarks downloaden

Zum Thema Computer ist auch von mir ein Buch erschienen. "Computergeschichte(n)" beinhaltet, das was der Titel aussagt: einzelne Episoden aus der Frühzeit des PC. Es sind Episoden aus den Lebensläufen von Ed Roberts, Bill Gates, Steve Jobs, Stephen Wozniak, Gary Kildall, Adam Osborne, Jack Tramiel und Chuck Peddle und wie sie den PC schufen.

Das Buch wird abgerundet durch eine kurze Erklärung der Computertechnik vor dem PC, sowie einer Zusammenfassung was danach geschah, als die Claims abgesteckt waren. Ich habe versucht ein Buch zu schreiben, dass sie dahingehend von anderen Büchern abhebt, dass es nicht nur Geschichte erzählt sondern auch erklärt warum bestimmte Produkte erfolgreich waren, also auf die Technik eingeht.

Die 2014 erschienene zweite Auflage wurde aktualisiert und leicht erweitert. Die umfangreichste Änderung ist ein 60 Seiten starkes Kapitel über Seymour Cray und die von ihm entworfenen Supercomputer. Bedingt durch Preissenkungen bei Neuauflagen ist es mit 19,90 Euro trotz gestiegenem Umfang um 5 Euro billiger als die erste Auflage. Es ist auch als e-Book für 10,99 Euro erschienen.

Mehr über das Buch auf dieser eigenen Seite.

Hier geht's zur Gesamtübersicht meiner Bücher mit direkten Links zum BOD-Buchshop. Die Bücher sind aber auch direkt im Buchhandel bestellbar (da ich über sehr spezielle Themen schreibe, wird man sie wohl kaum in der Auslage finden) und sie sind natürlich in den gängigen Online-Plattformen wie Amazon, Libri, Buecher.de erhältlich.

Sitemap

Kontakt

Impressum / Datenschutz

Neues

Hier werben / advertisment here

Buchshop

Bücher vom Autor