Cray – IT@UDE https://blogs.uni-due.de/zim ZIM - Wissen schafft IT Sat, 29 Dec 2012 18:35:38 +0000 de hourly 1 https://wordpress.org/?v=6.7 Raspberry Pi versus Cray XT 6m Supercomputer – MD5-Hash-Kollisionen berechnen mit dem Raspberry Pi https://blogs.uni-due.de/zim/2012/08/20/raspberry-pi-versus-cray-xt-6m-supercomputer-%e2%80%93-md5-hash-kollisionen-berechnen-mit-dem-raspberry-pi/ https://blogs.uni-due.de/zim/2012/08/20/raspberry-pi-versus-cray-xt-6m-supercomputer-%e2%80%93-md5-hash-kollisionen-berechnen-mit-dem-raspberry-pi/#respond Mon, 20 Aug 2012 16:23:13 +0000 https://blogs.uni-due.de/zim/?p=1496 Weiterlesen ]]> Der Raspberry Pi ist ein kleines Board mit ARM11- Prozessor (ein ARM1176JZF-S um genau zu sein, mit ARMv6 Befehlssatz), welches über einen 100 Mbit Ethernet-Port, HDMI, Analog Video, GPIO-Pins, SPI, I²C, UART und zwei USB-Schnittstellen verfügt. Der Prozessor ist übrigens identisch mit der im Apple iPhone der ersten Generation verbauten CPU.

Das kommt in der Verpackung, eine SD-Karte ist nicht dabei.

Das kommt in der Verpackung, eine SD-Karte ist nicht dabei.

Das Besondere ist der Preis, der Raspberry Pi kostet nur 25-30$ und ist für den Einsatz in Schulen vorgesehen. In England ist er inklusive T-Shirt und Versand nach Deutschland für 34 € zu haben. Aufgrund seiner niedrigen Leistungsaufnahme von nur 3,5 Watt (lüfterlos und ohne Kühlkörper), seiner geringen Größe (etwa Kreditkartenformat, aber durch die Konnektoren ca. 1,5 cm hoch) und des günstigen Preises eignet sich der Raspberry Pi für energiesparende Eigenentwicklungen wie etwa ein NAS, einen kleiner Router oder ein eigenes kleines Mediacenter. Als Massenspeicher fungiert eine SD-Karte, die beispielsweise mit einer angepassten Linux-Version, wie z.B. Raspbian “wheezy”, einem modifizierten Debian, bespielt werden kann.

Die Verwendung der angepassten Distribution ist sehr zu empfehlen, da diese Version im Gegensatz zu den Debian-ARM Versionen die Hardware Floating-Point-Unterstützung des ARM11 auch wirklich ausnutzen. Bei der Übersetzung von Source-Paketen sollte auch immer die GCC Compiler-Optionen

-mcpu=arm1176jzf-s -mfpu=vfp -mfloat-abi=hard

angegeben werden, damit wirklich die Hardware-Floating-Point Unterstützung aktiviert wird. Ansonsten werden die Floating-Point-Operationen per Library in Software durchgeführt, was naturgemäß sehr viel länger dauert (Faktor 10). Die Ubuntu-Arm Distribution ist übrigens nicht für den Raspberry Pi geeignet, da sie als Mindestanforderung den ARMv7-Befehlssatz (ab ARM Cortex A8) voraussetzt.

Kleine ARM-Kunde und Tablet-Tipps

ARM-Prozessoren, bzw. von den Herstellern in System on  a Chip (SoC)  integrierte ARM-Kerne, treiben übrigens so ziemlich alle aktuellen Android Smartphones und Tablets an. Auch die Apple-A5 SoC im iPhone und iPad verwenden ARM-Prozessorkerne. Übrigens sind neben dem Hauptprozessor für die Benutzerschnittstelle (auf dem das Android oder das  iOS läuft) auch fast immer mehrere zusätzliche ARM-Kerne in einem Mobiltelefon verbaut. Leistungsschwächere, aber energiesparende “kleinere” ARM-Varianten werden beispielsweise für den Kommunikationsprozessor (das “Radio”) des Telefons eingesetzt, welcher die GSM und UMTS-Kommunikation abwickelt. Auch in fast allen Bluetooth-Chipsätzen und  GPS-Chipsätzen steckt jeweils ein weiterer kleiner ARM-Kern. Die Wahrscheinlichkeit ist also sehr hoch, dass in Ihrem Smartphone vier oder mehr ARM-Kerne in Chipsätzen “verbaut” sind.

Die Nummerierung der Befehlssätze ARMvX darf nicht mit der der Bezeichnung der Architektur verwechselt werden, siehe auch http://de.wikipedia.org/wiki/ARM-Architektur. Übrigens findet sich hier eine schöne Zuordnung von ARM-Befehlssatzversionen zu den korrespondierenden ARM-Architekturen und den zugehörigen Handelsnamen der SoC ARM-Implementierungen einiger Hersteller. Diese Aufstellung kann bei der Auswahl eines Android-Tablets in Hinsicht auf zu erwartende CPU-Leistung sehr hilfreich sein. (Unterhalb Cortex A8 – Finger weg!)  Brauchbare Tablets mit Cortex A8 sind schon für knapp über 100 Euro erhältlich. Eine dem iPad 3 vergleichbare Performance kann aber erst einem Cortex A9 basierten Gerät mit mehreren Kernen abverlangt werden.

MD5-Hash-Kollision

Um die Leistungsfähigkeit der ARM11-Prozessors auf die Probe zu stellen, wurde kein klassischen Benchmark eingesetzt, sondern die MD5 Collision Demo von Peter Selinger für den Raspberry Pi kompiliert. Hier bei handelt es sich um einen Algorithmus, der einen Angriff auf einen MD5 Hashwert vornimmt und eine Kollision erzeugt. Mit so einer Hash-Kollision kann zweites Dokument oder ein zweites Binary erzeugen werden, dass einen identischen MD5 Hash zu einer Originaldatei besitzt. Der Algorithmus startet immer mit einem Zufallswert für die Berechnung einer Hash-Kollision, so dass es immer unterschiedlich lange dauert bis eine Kollision gefunden wird. Startet man den Prozess aber mehrmals auf einer Maschine mit mehreren Kernen, so steigt die Wahrscheinlichkeit recht schnell an ein Ergebnis zu kommen. Der Algorithmus parallelisiert also nicht die selber die Berechnung, sondern profitiert vom abweichenden Zufallsstartwert auf jedem Kern.

PC versus …

Getestet wurde zunächst mit einem single core Atom Netbook (2 Stunden 46 Minuten) und dann mit einer 8-Kern-Maschine (zwei Xeon Quad Core Prozessoren), dem Publikumsrechner des ZIM für Mitarbeiter der Hochschule. Diese Maschine benötigte nur 16 Minuten und 6 Sekunden um eine Kollision zu finden. Wohlgemerkt einer der Kerne hatte eine Kollision gefunden, der letzte Kern benötigte fast drei Stunden. (siehe Abbildung)

Das top-Kommando ("1" für die Ansicht aller Kerne)

Das top-Kommando ("1" für die Ansicht aller Kerne)

… CRAY versus ….

Den Cray XT 6m Supercomputer der Universität Duisburg-Essen konnte ich bereits im Juni 2010 mit der gleichen „Rechenaufgabe“ testen. Ich hatte seinerzeit allerdings nur 300 der insgesamt 4128 Kerne zur Verfügung, einer der Kerne fand nach 56 Sekunden eine Hash-Kollision. Auf der Cray kann ein Job automatisiert auf allen zur Verfügung stehenden Kernen gestartet werden.

… Raspberry PI

Und der gute Raspberry Pi? Ein Testlauf brachte nach 30 Stunden und 15 Minuten eine Hash-Kollision zum Vorschein. Wie beschrieben, es handelt sich um keinen wirklichen Benchmark. Zwei weitere Durchgänge endeten nach 19Stunden 10 Minuten und 29 Stunden und 28 Minuten. Aber wie sieht denn nun die Energiebilanz des Raspberrys im Vergleich mit der Cray aus?

Preiswerter und leiser als ein Cray Supercomputer bei etwa gleichem Energieverbrauch bezogen auf die Rechenleistung

Preiswerter und leiser, aber auch sehr viel langsamer als ein Cray Supercomputer bei etwa gleichem Energieverbrauch bezogen auf die Rechenleistung

Die zwei Cray-Schränke an der Universität Duisburg-Essen benötigen je 40kW und die erzeugte Wärme per Klimatisierung abzuführen wird jeweils die gleiche Leistung benötigt. Also insgesamt 160 KW bzw. umgerechnet auf den im Experiment genutzten Anteil der 300 Kerne ca. 11.6 KW. Der Energieverbrauch in 56 Sekunden beträgt dann 0,18 KWh. Der Raspberry Pi nimmt eine Leistung von 0,0035 KW auf und verbraucht daher in 30,25 Stunden 0,106 KWh. Wenn man die Klimatisierung nicht berücksichtigen würde, ergäbe sich überraschenderweise ein etwa ähnlicher Energieverbrauch pro Rechenleistung!

]]>
https://blogs.uni-due.de/zim/2012/08/20/raspberry-pi-versus-cray-xt-6m-supercomputer-%e2%80%93-md5-hash-kollisionen-berechnen-mit-dem-raspberry-pi/feed/ 0
Cray ist nicht gleich Cray, XE != XT, HLRS != UDE https://blogs.uni-due.de/zim/2012/02/25/cray-ist-nicht-gleich-cray-xe-xt-hlrs-ude/ Sat, 25 Feb 2012 20:00:52 +0000 https://blogs.uni-due.de/zim/?p=1144 Weiterlesen ]]> In Stuttgart am Höchstleistungsrechenzentrum HLRS wurde jetzt der schnellste Supercomputer Deutschlands offiziell für die Nutzer freigegeben. Am HLRS wird ein Supercomputer der Firma Cray eingesetzt, eine Cray XE6 namens Hermit. Auch die Wissenschaftler der Universität Duisburg-Essen setzen für das wissenschaftliche Rechnen eine Cray ein.

Ein Vergleich (alle Daten zum Zeitpunkt der Installation):

  HLRS
XE6
UDE
XT6m
Installation 12.2011 05.2010
Platz TOP500 12 447
Platz in Deutschland 1 23
Rechenknoten 3552 172
Verbindungsnetz zwischen den Rechenknoten Cray Gemini Cray SeaStar 2+
Rechenknoten 3552 172
Cabinets 38 2
Prozessortechnologie pro Rechenknoten 2 AMD Interlagos 2.3 GHz mit je 16 Rechenkernen pro Rechenknoten 2 AMD Magny-Cours 1.9 GHz mit je 12 Rechenkernen
Peak Performance 1.045 PFlops 0.031 PFlops
Arbeitsspeicher 126 TByte 5,5 TByte
Festplatte 2,7 Petabyte 15 TByte
]]>
Die neue TOP 500-Liste – über PetaFlops, GPUs und Energieverbrauch https://blogs.uni-due.de/zim/2011/06/30/die-neue-top-500-liste-uber-petaflops-gpus-und-energieverbrauch/ https://blogs.uni-due.de/zim/2011/06/30/die-neue-top-500-liste-uber-petaflops-gpus-und-energieverbrauch/#respond Thu, 30 Jun 2011 11:22:38 +0000 https://blogs.uni-due.de/zim/?p=475 Weiterlesen ]]> In der letzten Woche wurde auf der International Supercomputing Conference in Hamburg die neue TOP 500-Liste der schnellsten Supercomputer der Welt vorgestellt. Zwei Mal im Jahr werden die schnellsten Rechner der Welt in dieser Liste aufgeführt, jeweils sortiert nach ihrer Leistung im Linpack-Benchmark. Während in den TOP 10 im Vergleich zur letzten Liste vom November 2010 im Wesentlichen nicht viel passiert ist – die Systeme auf den aktuellen Plätzen 6 und 7 sind nach Erweiterungen jeweils um 4 Positionen gestiegen – gab es einen bemerkenswerten Neueinstieg an der Spitze der Liste. Die neue Nummer 1 ist der K Computer in Japan, dessen Linpack-Benchmark mit 8,162 PetaFlops mehr als 3-mal so hoch ist wie bei der bisherigen Nummer 1 aus China. Einen vergleichbaren Sprung gab es zuletzt vor 9 Jahren im Juni 2002, als der Earth Simulator einen rd. 5-mal höheren Linpack-Wert erreichte als die vorhergehende Nummer 1 aus der Liste vom November 2001.

Der K Computer von der Fa. Fujitsu besteht aus 68.544 SPARC64 VIIIfx CPUs, jede mit acht Kernen, und besitzt somit insgesamt 548.352 Kerne. Anders als die Systeme auf den Plätzen 2, 4 und 5 auf der Liste sind im K Computer keine GPUs, also Grafikprozessoren, verbaut. Insgesamt gibt es in der aktuellen TOP 500-Liste überhaupt nur 17 Systeme mit GPUs, so dass noch abgewartet werden muss, ob die Nutzung von Grafikprozessoren sich in größerer Breite beim High Performance Computing durchsetzen wird. Der K Computer erreicht beim Linpack 93% seiner maximalen Leistung von derzeit 8,774 PetaFlops, was selbst für ein System ohne GPUs außergewöhnlich hoch ist. Auch sein Energieverbrauch ist mit knapp 10 MW hoch und der absolute Spitzenwert; setzt man den Energieverbrauch aber in Relation zur im Linpack erzielten Leistung, so ist kaum ein System effizienter.

Auch die Universität Duisburg-Essen war schon einmal in der TOP 500-Liste vertreten. Vor einem Jahr, im Juni 2010, belegte die gerade installierte Cray XT6m mit einem Linpack-Benchmark von 26,19 TeraFlops Position 447 in der Liste. Das hätte zu Zeiten des Earth Simulators in den Jahren 2002/3 immerhin Platz 2 bedeutet. In der aktuellen Liste benötigt ein System nun aber bereits knapp über 40 TeraFlops, um überhaupt noch Platz 500 zu erreichen.

]]>
https://blogs.uni-due.de/zim/2011/06/30/die-neue-top-500-liste-uber-petaflops-gpus-und-energieverbrauch/feed/ 0
iPad vs. Cray https://blogs.uni-due.de/zim/2011/05/10/ipad-vs-cray/ Tue, 10 May 2011 07:36:35 +0000 https://blogs.uni-due.de/zim/?p=306 Weiterlesen ]]> Computer und Smartphones werden immer leistungsfähiger. Das ist hinlänglich bekannt. Dabei erfolgt die Verdoppelung der Leistung ca. alle 20 Monate (Mooresches Gesetz). Aber was ist, wenn man nun rückwärts blickt und in die Vergangenheit schaut.

Der US-amerikanische Professor Jack Dongarra hat sich jetzt, laut einem Artikel der New York Times, mit der Leistung von iPads beschäftigt und herausgefunden, dass diese es in die TOP500-Liste der Supercomputer geschafft hätten. Dies jedoch in den 1980er/1990er Jahren. Ein iPad 2 hätte es demnach mit einer Cray-2, dem schnellsten Supercomputer 1985, aufnehmen können und wäre mit seiner Leistung sogar bis 1994 in der TOP500-Liste vertreten gewesen.

Um heute in der Top500-Liste vertreten zu sein, muss es schon eine Cray XT6m sein, wie sie vom ZIM für die Wissenschaftler der UDE betrieben wird. Dann reicht es immerhin noch zum Platz 447.

Ein Vergleich der Rechenleistung:

Weitere Links zu diesem Thema:

http://www.tuaw.com/2011/05/09/ipad-2-would-have-bested-1990s-era-supercomputers/
http://www.macnews.de/ipad/benchmark-ipad-2-leistung-vergleichbar-mit-supercomputer-der-90er-jahre-172844

 

]]>