Das Aufkommen der Massiv Parallelen Rechner – Teil 2

Neuere Entwicklungen

In neuerer Zeit bekommen die Prozessoren selbst wieder Konkurrenz. Vor einigen Jahren brachte IBM den Cell Prozessor auf den Markt: Ein Verbund einer Power-PC-CPU und acht einfachen Recheneinheiten die jeweils 4 Zahlen einfacher Genauigkeit parallel verarbeiten konnten. IBM konnte einen Achtungserfolg verbuchen, jedoch nicht die Spitzenposition erreichen. Danach besannen sich die Grafikkartenhersteller NVidia und ATI dieses Marktes. Geht es nur nach purer Rechenleistung, so sind schon seit über 10 Jahren Grafikkarten viel leistungsfähiger als PC-Prozessoren. Während diese Mitte 2012 zwischen 2 und 16 Kerne haben, hat der aktuell schnellste Chip im HPC Umfeld (High-Performance Computering) GK-104 „Kepler“ 1536 Recheneinheiten. Jede ist primitiver als ein PC-Prozessor, der Speicher auf den Graphikkarten ist zwar schnell, aber vergleichsweise klein und die Shader können auch keine große und komplexe Programme abarbeiten, doch sie können schnell rechnen. Die GK-104 CPU erreicht 1900 GFlops, während Intels leistungsfähigstes Exemplar bei rund 100 GFlops alt aussieht. Aufgrund der Einschränkungen in der Programmierung, die doch deutlich von dem normaler Prozessoren abweicht und des relativ kleinen Speichers auf den Grafikkarten werden sie heute vorwiegend als Coprozessor eingesetzt. ATI und NVidia haben jedoch viel getan um Mängel zu beseitigen. So war vor einigen Jahren die Geschwindigkeit in doppelter Genauigkeit, dem Standardformat für Rechnungen im wissenschaftlichen Bereich (15-16 Stellen Genauigkeit) sehr niedrig und lag bei einem Achtel der Geschwindigkeit bei einfacher Genauigkeit. (7-8 Stellen) Inzwischen ist sie halb so groß. Auch der Speicher für die „Shaderprogramme“ und deren Komplexität wurde erhöht.

Auf der anderen Seite versucht auch Intel in diesen Markt einzudringen. Seit 2009 wurde unter der Bezeichnung „Larrabee“ eine GPU entwickelt. Das Konzept von Larrabee, mit 256 sehr einfachen Recheneinheiten wurde dann gekippt und unter „Xeon Phi“ erscheint die GPU nun mit nur 50 Kernen, die jedoch vollwertige Pentium Kerne sind. Damit soll eine Karte ebenfalls 1 Terraflop schaffen – zwar nur halb so schnell wie NVidias Karte, aber auch nur mit einem Dreißigstel der Prozessorenzahl.

Was sich allerdings auch geändert hat, ist der Platzbedarf. Eine Cray konnte man noch im Wohnzimmer aufstellen. Man brauchte zwar eine verstärkte Decke wegen der 5,5 t Gewicht, aber der Rechner hatte einen Durchmesser von weniger als 3 m. Der im Juni 2012 schnellste Rechner, der Sequoia – BlueGene/Q mit fast 1.6 Millionen PowerPC Prozessoren besteht aus 96 Racks, jedes so groß wie ein kleiner Kleiderschrank und füllt damit eine kleine Halle aus. Dabei handelt es sich um eine Variante mit sehr energiesparenden Prozessoren die von einer Embedded Linie abstammen. Sie können daher deutlich dichter gepackt werden als PC-Prozessoren.

Cloud Computing

Konkurrenz bekommen diese Systeme neuerdings durch das Internet. Weltweit gibt es Hunderte Millionen PC, die meisten davon hängen am Internet und die meisten werden von ihren Benutzern selten voll ausgenutzt. Bei typischer Schreibtischarbeit ist der Prozessor größtenteils nahe des Ruhezustands.

Schon Ende der neunziger Jahre kamen verschiedene Organisationen darauf, diese Ressource zu nutzen. Eines der ersten Projekte war SET@Home. Millionen von Nutzern holten sich ein kleines Datenpaket mit empfangenen Daten eines Radioteleskops ab und je nach Geschwindigkeit des Prozessors wurde in 10-40 Stunden nach intelligenten Signalen gesucht. Nur zum Abholen der Daten und senden deer Ergebnisse musste das Programm den Server von SETI kontaktieren. Dazwischen arbeitete es autonom. Das führte zu Nachahmern. Man kann heute nach Heilmitteln für Kerbs, Beweisen für Einsteins Relativitätstheorie etc. suchen. alle diese Projekte nutzen Rechner die über das Internet Daten zum Auswerten bekommen. Jeder einzelne hat nur eine kleine Leistung, aber die Masse macht es. Wenn die Anwendung es zulässt, dann spart dies eine Menge Geld. Derartige Anwendungen gibt es. Sucht man nach Medikamenten, so untersucht man, ob ein Stoff wenn man ihn dreht, in das funktionale Zentrum bekannter Moleküle passt. Das ist durchaus aufwendig und bei vielen Enzymen kann man jede Kombination Wirkstoff/Enzym mit einem Rechner untersuchen lassen. Das erkannten auch Pharmafirmen, die dazu die zahlreichen PC’s in Labor und Büro nach Büroschluss einsetzten. Andere Anwendungen, wie die klassischen Simulationen, eigen sich dafür nicht. In diesen wird der Untersuchungsgegenstand in kleine Flächen- oder Volumenteile unterteilt, für diese physikalische Gleichungen gelöst und dann die Daten mit den Nachbarzellen ausgetauscht. Dieser Vorgang wird dann sehr oft wiederholt. So funktionieren Modelle der Sonne, explodierender Sterne, von Flugzeugen (Aerodynamik) und Autos (Crashtest, Aerodynamik) aber auch des Wetters und der Klimavorhersage. Der Unterschied zu obigen Berechnungen ist, dass jede Einzelberechnung relativ schnell abgeschlossen ist, die Kommunikation also viel mehr Zeit beansprucht.

Eine zweifelhafte Nutzung dieses „Cloud Computings “ ist seit September 2012 die „Dienstleistung“ einen beliebigen 56-Bit Schlüssel für ein WLAN-Netz durch Angabe des Hash-wertes innerhalb von 24 Stunden gegen Bezahlung berechnen zu lassen.

Seymour Cray, der schon 1996 bei einem Autounfall starb, aber noch mitbekam, wie die Vektorrechner von den Clustern abgelöst wurden war Zeit seines Lebens Gegner dieses Ansatzes. Er sagte einmal: „Was nehmen sie zum Pflügen eines Ackers: zwei starke Ochsen oder 1024 Hühner?“. Unbestritten ist die Programmierung weniger Vektorprozessoren mit einem gemeinsamen Hauptspeicher einfacher ist, als viele Prozessoren auszulasten, zu synchronisieren und vor allem ihre Spitzenleistung auch nutzen. Aber zumindest in der Form wie sie damals üblich war, war die Technologie nicht mehr in der Leistung steuerbar. Je nach Sichtweise könnte man auch Xeon Phi oder Tesla Grafikkarten als Vektorprozessoren ansehen – nur arbeitet nicht eine Recheneinheit mit 64 Registern, sondern viele Recheneinheiten mit nur wenigen Registern, aber parallel. Anders als vollwertige Prozessoren sind die Shaderkerne aber keine vollwertigen Kerne, sondern mehr mit einer arithmetrisch-logsichen Einheit (ALU) vergleichbar.

Vektorinstruktionen haben inzwischen in die PC-Prozessoren Einzug gehalten. Hier heißt es SIMD. Die neueste Implementierung ist AVX von Intel/AMD.

Artikel verfasst am 13.10.2012

2 thoughts on “Das Aufkommen der Massiv Parallelen Rechner – Teil 2

  1. Das was du unter Cloud Computing beschreibst ist kein Cloud Computing sondern Distributed Computing. Cloud Computing ist das was Google oder Amazon macht mit Software as a Service und Clustern.

  2. Wenn Du nur die Projekte Seti@Home etc nimmst ja. Wenn Du das etwas weiter siehst und auch das untere Beispiel mit dem WPE Schlüssel dazunimmst, dann ist es Cloud Computing.

    Der Begriff wird zwar heute vorwiegend für Datenspeicherung benutzt, aber umfasst eigentlich jede Infratruktur wo der Nutzer nicht weiss, wo seine Anwendungen eigentlich laufen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.