Die große Mauer

Wann endet die Entwicklung von integrierten Schaltungen?

Seit 1961 der erste Rechner auf Basis von integrierten Schaltungen entstand, sind diese laufend weiter entwickelt worden. Bei RAM Chips vervierfachte sich die Transistorenzahl in den letzten 30 Jahren im Durchschnitt alle 3 Jahre, bei Mikroprozessoren gab es eine Verdoppelung alle 24-26 Monate. 1965 prophezeite dies schon Gordon Moore, Mitbegründer von Intel. Seitdem ist dieses exponentielle Wachstum als "Moores Law" sprichwörtlich geworden. Klar ist das es nicht unendlich weiter gehen wird, doch wo liegen die Grenzen?

Dieser Artikel geht dieser Frage auf den Grund, wobei ich mich bewusst auf die technischen Möglichkeiten beschränke, die es heute gibt oder die zumindest heute erforscht sind. Es hat z.B. keinen Sinn über die Möglichkeiten eines Quantencomputers zu spekulieren, solange kein echter Computer auf dieser Basis entstanden ist.

Es gibt prinzipiell 3 Dinge die Beschränkt sind:

Die Integrationsdichte
Die Geschwindigkeit
Die Komplexizität

alle drei Aspekte hängen zusammen, doch ist es sinnvoll sie getrennt voneinander zu betrachten.

Die Komplexizität

Für die Geschwindigkeit wichtig, aber auch für die Möglichkeiten der Maschine ist wichtig wie komplex diese ist. Es gibt hier zwar sicher den Trend, das mit zunehmender Integration die Rechner komplexer werden, doch findet man schon heute Gegentrends. Komplexizität gibt es auf mehreren Stufen:

Bearbeitungsbreite

Intel 4004: 2250 Transistoren 1971 führte Intel den ersten 4 Bit Prozessor ein: Intel 4004 mit 2250 Transistoren. 1975 hielt der 8 Bitter, 1976 der erste 16 Bitter, 1985 die ersten 32 Bitter und 1991 die ersten 64 Bitter Einzug. Was kommt danach - Der 96 oder 128 Bitter oder gar der 256 Bitter? Nein, es spricht vieles dafür das dem nicht so sein wird. Im Prinzip braucht man 64 Bit für zwei Dinge

einen großen Adressraum: Bei 64 Bit ist dieser so groß, das die Zahl 19 Stellen hat.
Die Bearbeitung langer Daten: 64 Bit ist das Standardformat für genaue Fliesskommazahlen

Großrechner mit 64 Bit gibt es schon seit 1976, und seitdem keine mit einer höheren Verarbeitungsbreite. Warum? Nun es macht keinen Sinn, weil es keine natürlichen Daten gibt die länger sind: Zeichen belegen 8 oder 16 Bits. Die Farbwerte eines Pixels 24 oder 32 Bits. Es gibt natürlich Architekturen, die sehr lange Datenwörter haben, und dann in diesen sehr viele kleine Werte unterbringen, die parallel bearbeitet werden. Doch dies ist keine echte breitere Architektur denn nur ein internes Register muss breit sein, aber die Funktionseinheiten arbeiten nach wie vor mit kleinen Werten von 8,16 oder 32 Bit. Solche Architekturen, die SIMD oder VLIW einsetzen findet man schon heute z.B. als MMX oder Altivec auf Prozessoren mit nur 32 Bit Breite.

Was sicher noch breiter werden dürfte sind die Datenbusse um mehr Daten auf einmal holen zu können. Ein Pentium hat als 32 Bit System schon einen 64 Bit Datenbus und mit den weiter sich verbreitenden SIMD/VLIW Architekturen dürften noch mehr Daten auf einmal geholt werden. Dies liegt daran, dass RAM Chips sehr langsam sind, und man so wenigstens mehr Daten auf einmal bekommt, wenn auch nicht schneller.

Die Architektur

Immer mehr Transistoren auf einem Chip - wie wird dies weiter gehen? Es ist interessant das es derzeit einige Konzepte gibt. Nachdem es relativ sicher, ist das CISC langsam aber sicher ausstirbt - einfach weil man RISC Kerne leichter den immer höher werdenden Takt anpassen kann, ist die Frage wie man die freiwordenen Transistoren nutzt. Intel z.B. integriert immer mehr Funktionseinheiten auf dem Chip. IBM setzt darauf, mehrere Prozessoren auf einem Chip zu integrieren: Ein Konzept das leichter skalierbar ist und diese unabhängigen Prozessoren verursachen weniger Speicherzugriffe. Da jede komplexere Architektur auch fehleranfälliger wird würde man hier das Problem abmildern, da man eine schon erprobte Architektur einfach in größerer Anzahl implementieren würde.

Eventuell wird man aber vielleicht einmal die Ideen aufgreifen die es schon in den sechziger gab : Einen Prozessor zu entwickeln der direkt in einer Hochsprache programmiert werden kann. In diesem Fall wäre die Performance nicht wie heute von trickreichen Compileroptimierungen abhängig, sondern Verbesserungen würden sofort "durchschlagen". Heute ist dieser Gedanke nicht sehr weit verbreitet, doch böte er das, was uns die Computerindustrie schon immer versprochen hat: Komptabilität. Doch weiß ich schon jetzt, was der nächste Streitpunkt sein wird: Welche Programmiersprache soll man umsetzen?

Der Takt

Der Takt ist der Herzschlag eines Mikroprozessors. Er ist begrenzt durch die Schaltgeschwindigkeit der Transistoren und die Ausbreitungsgeschwindigkeit des Lichts. Schon in den letzten Jahrzehnten musste die Architektur dem Takt Tribut zollen: Speicher rückte direkt an den Prozessor. Caches wurden in den Kern selbst integriert und SCSI Kabel werden mit zunehmenden Takt immer kürzer.

Der Übergang von Silizium auf Silizium/Germanium Technologie dürfte durch die 3 mal höheren Schaltgeschwindigkeiten von Germanium den Takt weiter ansteigen lassen. Schon heute schaffen Germanium/Silizium Strukturen bei herkömmlicher 0,18 µm Technologie 90 GHz. Silizium benötigt dafür eine erheblich höhere Integrationsdichte von 0.015 µm. Doch da derartige Germaniumchips diese bislang nur im Labor existieren, dürfte Silizium mindestens noch für 10 Jahre der wichtigste Werkstoff bleiben. Sollte man hier die physikalische Grenze erreicht haben, so könnte man auf die teure aber nochmals um den Faktor 2 schnellere Galliumarsenid Technologie umsteigen.

Doch schon vorher gibt es andere Probleme. Innerhalb eines Chips macht die Ausbreitungsgeschwindigkeit des Signals - typischerweise mit 50-70 % der Lichtgeschwindigkeit oder 15-20 cm/ns noch keine Probleme. Ein Chip hat heute Abmessungen von 10x10 mm, d.h. diese Technik wäre bei weitgehend geraden Bahnen noch gut für 15-20 GHz, also weit unterhalb der schon heute möglichen 90 GHz. Speicher der extern ist, und heute etwa 5-10 cm vom Prozessor entfernt müsste erheblich langsamer getaktet werden.

Natürlich kann man daran gehen das "Die" - also den eigentlichen Chip ohne Keramikgehäuse - zu verkleinern. Doch dann gibt es andere Probleme: Die 400-500 Signalleitungen die schon heute ein Chip hat, müssen ja auch irgendwie kontaktiert werden. Diese sind nicht beliebig dünn zu machen und nah aneinander zu rücken.

Ein Ausweg dürfte darin liegen, wie man es schon bei IBM plant mehrere Prozessoren auf einem Chip zu integrieren. Diese wären unabhängig voneinander und würden kleinere Chipflächen beanspruchen - höherer Takt wäre möglich. Analoge Überlegungen stellt Intel an, hier will man aber einen zweiten Prozessor mit Spezialaufgaben wie Multimedia Kodierung / Dekodierung integrieren. Dies würde zwar die Rechenleistung nicht so gravierend steigern, würde aber dazu führen dass man evt. auf eine teure Grafikkarte verzichten könnte.

Ein anderes Konzept sind asynchrone Architekturen, bei denen nicht alle Funktionseinheiten im Takt arbeiten und daher ohne Takt auskommen. Es gibt derzeit nur wenige Prozessoren auf Grundlage dieser Architektur, sie werden schneller mit sinkenden Temperaturen. Ein Amulet2e Prozessor ist z.B. ARM 7 kompatibel und ereicht ein Leistung von 38 MIPS, während ein ARM 7 selbst nur 23 MIPS erreichte. Ab 10 GHz dürfte der Aufwand für getaktete Architekturen stark ansteigen, so das man nach neuen Lösungen suchen wird müssen.

Integrationsdichte

Ähnlich wie der Takt die Schlüsselgröße bei der Geschwindigkeit ist, so ist es die Auflösung der Maske beim "Belichten" der integrierten Schaltungen. Diese Größe lag bei Intels erstem Prozessor I4004 noch bei 10 µm und sank dann zuerst rasch auf Werte von 2 µm beim 8086, 7 Jahre später. Seitdem sinkt die Maskenauflösung langsamer und hat zum Zeitpunkt dieses Artikels einen Wert von 0.13 µm erreicht in dem die Pentium 4 über 2 GHz und die zweite Generation von Itanium Prozessoren entstehen werden. Bei Speicherchips ist beim 256 MBit Chip derzeit die 0.17 µm Technik noch gängig. Man kann jeweils Gatebreiten ereichen, die halb so groß sind wie die Angabe des Prozesses, z.B. 70 nm bei der 130 nm (0.13 µm) Technik.

Der Abstand eines Atoms in einem Siliziumoxid liegt bei 0.17 - 0.18 nm, also sollte man theoretisch noch viel erreichen können bis man an atomare Dimensionen stößt. Doch es gibt dünnere Schichten im Herstellungsprozess: Die Schichten die vertikal gebildet werden sind erheblich dünner und müssen es auch sein, weil man mit kleineren Elementen mit niedrigeren Spannungen arbeitet um sie schneller schalten zu lassen. Dadurch sind aber auch Feldstärken kleiner und reichen nicht so weit. (Intels 4004 arbeitete mit 12 V, ein Pentium 4 nur noch mit 1.4 V Spannung).

Die Gate-Oxid Dicken liegen daher erheblich niedriger als die Strukturbreiten. Eigentlich sollten Gate-Oxid Breiten von unter 4 Atomlagen Dicke (beim 0.18 µm Prozess beträgt die Dicke etwa 25-35 Atomlagen) keine isolierende Wirkung mehr haben, doch hat man nun schon Labormuster von 30 nm Strukturbreiten mit nur 3 Atomlagen dicke Oxid Schichten erzeugt.

Bei der Integrationsdichte ist die Vorhersage am schwierigsten: Ende der achtziger Jahre glaubte man beim Übergang der Strukturen in den Wellenbereich von UV Licht exotische Lösungen wie Röntgenstrahlen oder Elektronenstrahlen benötigen zu müssen - Doch Eximer UV Laser erlaubten es den bisherigen Prozess ohne derartige Quellen weiter betrieben zu können. Auch der 30 nm Transistor kommt noch ohne exotische Oxide als Isolation aus, obgleich man 1999 prognostizierte, das kleinere Isolationsschichten als 4 Atomlagen nicht mehr isolieren. Es gibt allerdings bis zum 30 nm Prozess noch einige Probleme zu lösen. Eximer Laser mit dieser Wellenlänge liefern noch zu wenig Licht, die ganze Produktion muss im Vakuum ablaufen, da Luft die Strahlen schluckt. Anstatt Linsen muss man mit Spiegeln das Licht bündeln - bei hohen Verlusten, wobei die Spiegel auf eine Atomlage genau geschliffen sein müssen. Masken müssen ebenfalls sehr fein sein und keine Interferenzen an den sehr feinen Kanten verursachen.

Allerdings viel mehr ist nicht drin. Irgendwo zwischen 10 und 20 nm Strukturbreiten bekommt man mit Siliziumdioxid als Isolator Probleme weil Isolationsschichten nicht mehr isolieren und Elektronen Barrieren durchtunneln können. Doch schon heute testet man Zirkoniumdioxid als Isolator - damit kann man einen weiteren Faktor 5 herausschinden, weil man für ein gleiches elektrisches Feld den Isolator wieder 5 mal dicker machen kann. Zudem entschärft Zirkoniumdioxid etwas das Problem des rapide ansteigenden Energieverbrauches von Schaltungen.

Speicherchips könnten wahrscheinlich noch etwas höher entwickelt werden. Bei einem 256 MBit RAM Chip in DRAM Technologie sind 30.000 Elektronen beteiligt um ein Bit zu speichern. Dabei verliert dieser laufend an Ladung, da die Speicherung in einem als Kondensator umfunktionierten Transistor erfolgt. Die Abflussrate dürfte erst massiv ansteigen wenn man die Strukturbreiten stark verkleinert. Da allerdings die Speicherchips in der gleichen Technologie wie Prozessoren hergestellt werden, haben sie auch die gleichen Probleme bei immer dünner werdenden Schichten. Sie treten nur etwas später auf, da Speicherchips anders als Prozessoren etwas langsamer fortentwickelt werden und auch länger im Handel sind. Man entwickelt nur alle 3 Jahre einen neuen Typ mit 4 fach höherer Dichte. So hinken Speicherchips in der Integrationsdichte den Prozessoren um einen Schritt hinterher.

Zumindest für Flash Speicher gibt es eine Aussage, wie lange man noch integrieren kann. Im Dezember 2004 gab AMD bekannt, dass man im Labor Flash Speicherzellen entwickelt hat, die nur noch 100-200 Elektronen zur Speicherung eines Bits erfordern. Dies gilt als technologischer Durchbruch, war man doch bisher davon ausgegangen, dass man mindestens 1000 Elektronen für die Speicherung eines Bits braucht. Wird dieser Technologie einmal in die Fertigung übergehen, so erlaubt sie FLASH Bausteine mit 32 GBit Speicherkapazität.

Bei der ISSC 2003 wurde bekannt, dass man nun das Ende der Entwicklung bei Gate Längen von 5 nm erwartet: Dies entspricht einem 12 nm Prozess. Zum Vergleich: Zum Zeitpunkt dieses Artikels werden Prozessoren im 130 nm Prozess entwickelt, erzielen bis zu 3.2 GHz Taktrate. Der nächste Schritt wird der 90 nm Prozess sein. Man erwartet dass man erst zum Jahre 2021 die 5 nm Gatelänge wird erreichen können. Das bedeutet, dass zwischen einem Pentium 4 und einem Prozessor mit 5 nm Gatelänge genauso viel Rechenleistungsdifferenz liegt wie zwischen einem Intel 80286 und dem Pentium 4. Unklar ist allerdings wie man so kleine Strukturen erzeugen will. Kann man so kleine Masken herstellen, Spiegel, noch genauer als für die Eximer Laser nötig, und gibt es überhaupt eine so kurzwellige Lichtquelle?

Zusammengefasst: Bis zum Jahre 2009-2012 dürfte es keine grundlegenden Probleme mit der heutigen Technologie geben. Manche sehen sogar eine Weiterentwicklung bis zum Jahr 2021, jedoch weiß man nicht wie man die Prozessoren herstellen soll. Es gibt derzeit noch keine Lösung für die Zeit danach, wenn Prozessoren mehr als 1 Milliarde Transistoren haben und mit mehr als 10-20 GHz laufen.

Stromverbrauch

CHIPin ECL Technologie, 1982 Rapide gestiegen ist in den letzten Jahren der Stromverbrauch von Prozessoren. Jeder PC Besitzer der mal seinen Computer aufgeschraubt hat weiß was da für ein Kühlkörper montiert ist. Und dies alles um die Verlustleistung von 50-70 Watt abzuführen die auf 100-150 mm² emittiert wird. Gordon Moore hat daher auch die Verlustleistung zu einem der größten Probleme die man bei der Weiterentwicklung von Chips hat erklärt. Hauptursache sind dafür Leckströme. In den 8 Jahren von 1995.2003 sind diese bei Intelprozessoren um den Faktor 10.000 gestiegen und machen heute 25 % des Stromverbrauchs aus. Diese haben verschiedene Quellen: Architekturfehler, falsche Wahl von Spannungen, doch letztlich nur eine Ursache: Die immer schlechter werdende Isolation durch immer kleinere Strukturbreiten. Man rechnet damit, dass wenn dies so weiter geht innerhalb kürzester Frist diese den aktiven Stromverbrauch übertreffen werden. Schon heute liegt die Stromabgabe eines Pentium 4 mit 83 Watt auf 100 mm² erheblich höher als die einer Herdplatte die zwar 2500 Watt abgibt, aber dies auf einer Scheibe von 18 cm Durchmesser (Der Pentium 4 gibt also pro Fläche 9 mal mehr Leistung ab).

Geht dieser Trend weiter, so emittieren die größten Verschwender im Jahre 2009 pro Fläche soviel Energie wie die Brennkammer einer Rakete aushalten muss und im Jahre 2011 soviel Energie wie die Sonnenoberfläche.

Das Problem ist wie andere nur milderbar. Zum einen kann man die Architektur verbessern. So verbraucht ein StrongARM Prozessor pro MIPS erheblich weniger als ein Pentium 4. Doch da die Benutzer eben diesen im PC haben wollen ist diese Lösung nur praktikabel wenn man gewillt ist radikal auf neue Systeme umzusteigen. Man kann Leckströme reduzieren wenn man ganze Areale des Chips abschaltet, z.B. wenn diese nichts zu tun haben (Ein Programm benutzt z.B. gerade keine Fliesskommazahlen). Dies setzt Intel z.B. im Centrino Mobilprozessor ein. Schlussendlich fehlen aber noch die Mittel die Ursache zu bekämpfen.

Der Stromverbrauch ist aus zwei Gründen sehr kritisch. Zum einen ist es natürlich auch ein wichtiger technischer Wert. Für viele Geräte ist weder ein hoher Stromverbrauch noch ein Lüfter tolerierbar. Man denke hier an mobile Geräte, flache Gehäuse oder Geräte die nicht dauernd surren dürfen. Zum anderen ist selbst in dem Bereich wo man einen hohen Stromverbrauch tolerieren kann wie bei PCs, Servern oder gar Großrechnern immer noch das Abwärmeproblem da. Schon heute müssen bei Server Racks einige Kilowatt Abwärme abgeführt werden. Selbst wenn im PC mal eine leise Wasserkühlung Standard ist, so kann der Stromverbrauch trotzdem nicht viel höher als heute liegen, denn schließlich ist ein PC im Winter als Heizung ja ganz angenehm, im Sommer aber bestimmt nicht!

IBM achtet inzwischen bei dem Design von Prozessoren konsequent auf die Reduktion des Stromverbrauchs. Dieser ist auch bei Großrechnern ein kritischer Parameter geworden. Man muss die Wärme schließlich abführen, wodurch man nicht so dicht Prozessoren packen kann wie man will und viel Platz und eine Klimaanlage braucht. Im Jahre 2004 begann IBM mit dem Aufbau des Bluegene Supercomputers. Dieser besteht nicht aus den großen Power PC Prozessoren (Power 4+ und 5 mit bis zu 1.9 GHz Takt), sondern aus den PowerPC440 Prozessoren für Embedded Systeme mit nur 500-700 MHz Takt. Diese sind zwar 2.2 mal langsamer als die sonst eingesetzten "großen" Brüder (die man auch im Mac findet), brauchen aber nur ein Zehntel des Stroms. So kann man 32 Prozessoren anstatt 4 auf einen Node platzieren. Der Bluegene Supercomputer erreicht so 165-185 GFLOPs/KW Stromaschluss, ein Dell Poweredge mit nur einem Viertel der Prozessorenzahl (Xeon) dagegen nur 20 GFLOPs/KW. So will IBM bis zum Jahre 2005 den Bluegene erweitern und dann eine Spitzenleistung von 360 TFLOPs erreichen - 10 mal mehr als der Earth Simulator von NEC, der seit 2002 die Liste der schnellsten Computer der Welt anführt.

Massespeicher

Magnetplatten Anfang achtziger Jahre Ganz unbemerkt von der Masse haben sich Festplatten weiter entwickelt. Dabei sind die Fortschritte bei Magnetspeichern in den letzten 20 Jahren erheblich höher als bei Halbleitern gewesen, wie die folgende Tabelle zeigt:

	1983	2003
Prozessortyp	Intel 80286	Intel Pentium 4
Transistoren	134000	42 Millionen
Kosten Prozessor	360 USD	415 USD
Steigerung pro USD	1	271 x
Festplatte	20 MB MFM	120 GB IDE
Kosten Festplatte	6000 DM	110 Euro
Steigerung pro DM	1	163000 x

Nicht nur ist die Speicherkapazität der Festplatte um den Faktor 6000 gestiegen, während die Transistorenzahl nur um den Faktor 300 stieg, nein Festplatten sind rapide billiger geworden, während Intel noch immer Prozessoren hochpreisig. verkauft. 1983 war eine Festplattenerweiterung zum IBM PC genauso teuer wie dieser alleine, erst ab 1990 hatte sich die Festplatte als Speicher gegenüber Diskettenlaufwerken durchgesetzt. Gleichzeitig wurden Platten erheblich kleiner. Die ersten hatten Durchmesser von 14", dann folgten 8", 5.25", 3.5" als heutiger Desktop Standard und für Notebooks gibt es 2.5" und 1.8" große Platten.

Man rechnet damit, die im Jahre 2003 übliche Technologie noch um den Faktor 10-20 weiter entwickeln zu können, also bis zirka 6 TB pro Platte. Für den Zeitraum danach hat man noch keine Lösungen. Eine Abwandlung des Rasterkraftmikroskops könnte nochmals 10 mal höhere Datendichten erlauben. Dazu müsste dieses aber für hohe Datenraten mit Tausenden anstatt einer Spitze arbeiten.

Grundlagenuntersuchungen an den magnetischen Materialen ergaben, dass man nur etwa 100 Atome zum Speichern eines Bits braucht. Heute wird ein Bit in 100.000 Atomen gespeichert. So groß sind die Bereiche die auf einmal magnetisiert werden. Kann man die Technologie entwickeln, die ein Bit in 100 Atomen speichert, so könnte man die Kapazität heutiger Platten viertausendfachen, also bis 300 Terabyte pro Festplatte.

Im Vergleich dazu haben sich optische Speicher kaum weiter entwickelt. Die CD-ROM entstand 1982 und der neueste Spross die Blue-Ray Disk 2002. Doch in 20 Jahren ist die Kapazität nur von 650 MByte auf 54 GByte gestiegen, also um den Faktor 83. Weitaus weniger als die Zahl der Transistoren oder gar die Festplattengröße (Diese haben diesen Sprung im Zeitraum zwischen 1995 und 2002, also innerhalb von 7 Jahren geschafft.). Dabei ist die Problematik, das ein optisches Medium in die Hand genommen wird wesentlich. Bei der Blue-Ray Disk stören schon Fingerabdrücke. Eine Analogie findet man in den Diskettenlaufwerken, bei denen es seit über einem Jahrzehnt keine Kapazitätssteigerung aus diesem Grunde gibt.

Ausblick

Pentium 4: 42 Millionen Transistoren Alles bisher vorgestellte, beruht auf der heute verfügbaren Technik und den heute bekannten Lösungen. Nach denen dürfte so um den Zeitraum 2010-2012 man an verschiedene Grenzen stoßen, wahrscheinlich zuerst beim Prozessortakt. In den 30 Jahren seit Intel 4004 stieg die Transistorenzahl um den Faktor 20.000 beim aktuellen Pentium 4 und der Takt um den Faktor 2500. Doch wie sieht es darüber hinaus aus ? Versuchen wir also einen Blick in die Kristallkugel mit etwas Phantasie. Weitgehend außen vor will ich dabei die Schaltgeschwindigkeit und das Halbleitermaterial lassen, da ich hiervon zu wenig verstehe. Als weiteres existieren schon heute Labormuster von Transistoren mit Transitgeschwindigkeiten von 2.63 Teraherz - Damit kann man Prozessoren mit bis zu 100 GHz Schaltgeschwindigkeit fertigen. Es dürfte eher bei anderen Stellen kritisch werden.

Taktrate

Wenn man in einem 10 × 10 mm großen die (einem kleinen Prozessorkern, heute typische Größen 10 × 10 - 20 × 20 mm) Signale leiten, so brauchen diese, ohne dabei schaltende Transistoren zu passieren etwa 0.1 ns von einer Ecke zur anderen. Mit schaltenden Gattern (es muss ja auch was passieren) noch ein bisschen länger. Das ist nicht zu umgehen. Das begrenzt aber auch den Takt, denn die Ausgangssignale sollten vorliegen, bevor die nächsten Eingangssignale kommen. 0.1 ns entsprechen 10 GHz Takt (Takt = 1 / Laufzeit = 1 / 0.1 * 10^-9). Es gibt zwei Lösungen um mehr als diese 10 GHz zu erreichen:

mehr kleine Strukturen auf dem Chip: Anstatt einem Prozessorkern kann man z.B. 4 (kleinere) unterbringen. Diese könnten dann doppelt so hoch getaktet werden und wären so 8 mal schneller. Jedoch: Jeder Kern braucht auch einen Austausch von Daten mit seinen Nachbarn. Dies dauert zum einen länger (größere Wegstrecke) zum anderen verringert dieser Overhead die Rechengeschwindigkeit. Je mehr kleinere Einheiten man hat, desto größer wird der Overhead und wenn ein Signal doch mal von einer Ecke des Chips zum anderen muss bricht die Performance drastisch zusammen. Mehrprozessorkerne werden jedoch heute schon IBM für die Poer4 Prozessoren entwickelt. Man hofft hier bis zu 16 Prozessorkerne auf einem Die unterzubringen.
Asynchrone Arbeitsweise: ohne zentrales Taktsignal. Dies kompliziert das Design zwar, da die Funktionseinheiten natürlich doch in einer gewissen Reihenfolge arbeiten müssen und auch parallele Architekturen wie es siehe heute gibt, kann man damit schwerer realisieren, doch wegen der wegfallenden Synchronisation spielt die Signallaufzeit nicht mehr die großes Rolle.

Die Erfahrungen der letzten Jahre zeigen, dass schon in den letzten Jahren eine Verlangsamung der Taktrate eingetreten ist. Ende 2002 war der schnellste Intel Pentium 4 Prozessor mit 3060 MHz getaktet, Ende 2006, also 4 Jahre später stieg die Taktrate nur auf 3800 MHz. Die Hoffnung vieler Chiphersteller ist es nun die Gesamtgeschwindigkeit des Systems nicht durch einen höheren Takt sondern mehr Kerne auf einem Chip zu steigern. Mitt 2006 haben sowohl AMD wie auch Intel angekündigt, die Fertigung von Einzelkernprozessoren einzustellen und nun mehr Kerne auf einem Chip unterzubringen. Für 2007 sind 4, für 2008 schon 8 Kerne pro Chip angekündigt.

Auswirkungen auf das System

Heute schon sieht man die Auswirkungen der Taktrate auf die Systemarchitekturen: Caches sind in die Prozessoren gewandert. RAMs stehen direkt daneben, Ultra-SCSI Kabel und IDE Kabel für 100 MByte/sec werden sehr kurz. Das ist natürlich genau das gleiche System. In dem Maße wie die Prozessoren schneller werden , werden es auch die Busse. Man wird wahrscheinlich bald dazu übergehen nicht nur Caches sondern die gesamte Architektur die schnell sein muss, nahe an den Prozessor zu bringen: RAM und Grafikcontroller. Auch bei Computern dürften die Tage von großen Desktop Gehäusen gezählt sein, denn bei Wegen von 1-2 m im System kommt man hier nie auf größeren Taktraten als 150-300 MHz.

Integrationsdichte

Maskenbelichtung ist sicher noch unterhalb der heutigen technischen Grenzen möglich. Mit Elektronen- und Röntgenstrahlen kann man noch erheblich kleinere Strukturen aus den Masken erzeugen. Nur ist diese Technik heute noch nicht so weit, dass man damit sehr große Stückzahlen herstellen kann. Doch ist dies sicher kein elementares Hindernis. Bei der Integrationsdichte kann man sicher noch durch bessere Isolationsschichten etwas kleiner werden, doch da man schon heute Muster die im Bereich von wenigen Atomlagen liegen hat, wird man dies nicht mehr viel weiter treiben können. Heute werden Masken durch 157 nm Eximer Laser belichtet, die kleinsten Strukturen die möglich sind, liegen bei etwa der Hälfte der Wellenlänge also zirka 70-80 nm. Schon heute wird am Sprung auf 13 nm gearbeitet - ein Sprung um das Zehnfache! Dazu verwendet man Plasma Laser, jedoch gibt es derzeit noch einige Probleme zu lösen: Die Lichtausbeute ist sehr gering und muss um den Faktor 20 gesteigert werden. Der Laser kann nur im Vakuum arbeiten, da sein kurzwelliges Licht alle Luftmoleküle in Plasma verwandeln würde. Mann kann ihn nicht mehr durch Linsen bündeln sondern braucht Spiegel die auf 1 nm genau geschliffen sind, also 50 mal genauer als wie Teleskopspiegel. Die Masken müssen ebenso fein und vor allem vor Staub im Nanometerbereich geschützt sein. Bis man um 2010 diese Technologie einsetzen kann, sind noch viele Dinge zu klären.

Der Ausweg ist die dritte Dimension. Heute sind Chips flach. Man könnte aber ohne Problem mehrere Ebenen unterbringen die man durch Isolationsschichten - oder noch besser guten Verbindungen trennen würde (entschärft dann auch das Geschwindigkeitsproblem). Es gibt heute noch keine Erfahrungen in der Herstellung und vor allem auch im Design, das natürlich erheblich an Komplexizität gewinnt, doch böte dies die Möglichkeit die Integrationsdichte weiter zu erhöhen.

Kosten

Ich habe bislang die Kosten völlig außen vor gelassen. Doch in der Praxis kann man diese nicht ignorieren. Die immer kleineren Strukturbreiten verteuerten auch die Produktion enorm. In den 70 ern benötigte man keine Schutzanzüge wenn man Chips fertigte, keine Reinräume von Fussbaldfeldgröße, keine E-UV und Röntgenstrahlenbelichter sondern einfache Lampen. Heute kostet eine "Fab" einen Betrag von 2-3 Mrd. USD und kann 3 Jahre lang betrieben werden, danach noch einmal den selben Zeitraum generalsaniert und dann muss man sie abreißen, weil die Technologie noch höhere Anforderungen an die Produktion stellt. So arbeiten heute Konkurrenten wie IBM und Motorola zusammen an neuen Chips. Die Zahl der Hersteller von Prozessoren welche die modernste Technik einsetzen kann man an einer Hand abzählen, während es für die Generationen davor (die man auch noch als Mikrocontroller nutzt) sehr viele Hersteller gibt.

Wenn man diesem nicht Einhalt gebieten kann, so werden sehr bald wirtschaftliche Gründe und weniger technische eine Grenze setzen.

Chancen auf neue Architekturen

Athlon Prozessor Wenn in nicht allzu ferner Zukunft die Entwicklung von Chips langsamer vor sich geht, so liegt darin auch eine Chance. Heute befindet sich die PC Industrie in der Situation wie die Automobilindustrie vor 10-20 Jahren: Jeder hat einen PC der einen braucht. Nun geht es daran wie bei der Automobilindustrie den "Zweit-PC", den "Cabrio-PC" und den "Smart-PC" zu verkaufen, also die bestehende Technologie in andere Geräte einzubringen. Heute fängt die Automobilindustrie zum ersten mal seit 100 Jahren wieder an fundamental neue Motoren zu entwickeln, weil das Benzin eine erschöpfliche Ressource ist. Wenn Chips nicht automatisch alle 2 Jahre ihre Transistorenzahl verdoppeln, so wird auch bei den Chip Herstellern die Suche nach neuen Designs losgehen, die mehr Leistungen bei gleicher Transistorenzahl versprechen.

Möglichkeiten gäbe es genug: Man könnte die Architektur den Anforderungen anpassen. Heute beherrscht eine Architektur die 1978 für den 8086 Prozessor entwickelt wurde den Markt. Die meisten Daten die heute verarbeitet werden sind Multimedia Daten. Einige kann der Prozessor verarbeiten, für den Großteil sind jedoch externe Prozessoren wie z.B. auf der Grafikkarte verantwortlich. Man könnte diese auch auf den Chip integrieren, genauso wie Hardware MPEG und MP3 Decoder und Encoder.

Auch kann man dem Rechnung tragen, das heute (fast) keiner mehr in Assembler programmiert: Im Gegenteil, Sprachen die auf einem synthetischen Zwischencode basieren, wie Java oder C# verbreiten sich rasch. Warum sollte ein Prozessor also nicht einen solchen Zwischencode interpretieren, oder gleich eine Hochsprache wie Java. Das klingt utopisch, doch hat man für die relativ einfache Sprache LISP schon mal einen Prozessorkern entwickelt, der nativ LISP Programme ausführte. In den achtziger Jahren waren die INMOS Transputer Chips auch so schnell, weil man für diese eine Programmiersprache schuf, die sie optimal unterstützte: OCCAM.

Schon heute wäre das kein Problem, denn heute gibt es nicht nur Zig Millionen Transistoren auf dem Chip, sondern die meisten sind nicht an der Logik beteiligt, sondern bilden den Cache. Ein Athlon hat z.B. 7.5 Millionen Logik Prozessoren und 30 Millionen Transistoren, die den Cache bilden.

Eine Zwischenbilanz

Den Artikel habe ich erstmals im Jahre 2002 geschrieben und seitdem in unregelmäßigen Abständen ergänzt. 2 Jahre später im Jahre 2004 ist es an der Zeit Zwischenbilanz zu ziehen. Obgleich man nicht rechnet vor 2009-2011 an die Grenzen der heutigen Technologie der Chipherstellung (Gemeint ist der allgemeine Prozess, nicht die Details die sich mit jeder Chipgeneration verändern) zu stoßen sind erste Auswirkungen schon zu spüren. So steigen die Taktfrequenzen von PC Prozessoren langsamer an. Im Jahre 2000-2002 steig die Taktfrequenz des Pentium 4 von 1.4 auf 3.0 GHz, also mehr als um den Faktor 2. Im gleichen Zeitraum von 2002-2004 dagegen nur von 3.0 auf 3.6 GHz, also nur um 20 %.

Sun, IBM, Intel planen Multiprozessorkerne, also mehrere Prozessoren auf einem Chip. Wie ich oben schon ausgeführt habe ist dies eine Möglichkeit den Problemen eines hohen Taktes zu begegnen. Man darf gespannt sein, welche Ideen die Industrie noch umsetzt.

Zum Thema Computer ist auch von mir ein Buch erschienen. "Computergeschichte(n)" beinhaltet, das was der Titel aussagt: einzelne Episoden aus der Frühzeit des PC. Es sind Episoden aus den Lebensläufen von Ed Roberts, Bill Gates, Steve Jobs, Stephen Wozniak, Gary Kildall, Adam Osborne, Jack Tramiel und Chuck Peddle und wie sie den PC schufen.

Das Buch wird abgerundet durch eine kurze Erklärung der Computertechnik vor dem PC, sowie einer Zusammenfassung was danach geschah, als die Claims abgesteckt waren. Ich habe versucht ein Buch zu schreiben, dass sie dahingehend von anderen Büchern abhebt, dass es nicht nur Geschichte erzählt sondern auch erklärt warum bestimmte Produkte erfolgreich waren, also auf die Technik eingeht.

Die 2014 erschienene zweite Auflage wurde aktualisiert und leicht erweitert. Die umfangreichste Änderung ist ein 60 Seiten starkes Kapitel über Seymour Cray und die von ihm entworfenen Supercomputer. Bedingt durch Preissenkungen bei Neuauflagen ist es mit 19,90 Euro trotz gestiegenem Umfang um 5 Euro billiger als die erste Auflage. Es ist auch als e-Book für 10,99 Euro erschienen.

Mehr über das Buch auf dieser eigenen Seite.

Hier geht's zur Gesamtübersicht meiner Bücher mit direkten Links zum BOD-Buchshop. Die Bücher sind aber auch direkt im Buchhandel bestellbar (da ich über sehr spezielle Themen schreibe, wird man sie wohl kaum in der Auslage finden) und sie sind natürlich in den gängigen Online-Plattformen wie Amazon, Libri, Buecher.de erhältlich.

Sitemap

Kontakt

Impressum / Datenschutz

Neues

Hier werben / advertisment here

Buchshop

Bücher vom Autor