GridKa School 2016

GridKa School 2016 - Review

Christoph-Erdmann Pfeiler

Service for science | science for service lautet das Motto des SCC. Die GridKa School ist ein sehr praktischer Ausdruck des ersten Teils des Mottos. Hier wird Wissenschaftlern und Studenten, Praktikern und Forschern eine Plattform geboten, um im eigenen Fach, aber insbesondere auch über die Fachgrenzen hinweg, Erfahrungen zu sammeln und auszutauschen, neue Techniken kennenzulernen und einzuüben.

 

Mit der 14. GridKa School im Jahr 2016 wurde eine erprobte Plattform genutzt, um dem Thema Data Science on Modern Architectures den gebührenden Raum zu verschaffen.

 

Herr Professor John Wood, CBE, FREng, Secretary-General ACU, Former Chair European Research Area Board, Co-chair Global Research Data Alliance, schlug nach der herzlichen Begrüßung der Gäste durch den geschäftsführenden Direktor des SCC, Herrn Professor Dr. Hannes Hartenstein und einer technischen Einfuhrung durch Herrn Dr. Manuel Giffels vom SCC einen weiten Bogen von den Anfängen über die Gegenwart zur Zukunft des von ihm benannten Data Science benannten Ansatz. Seiner Vorstellung nach verschwimmen die Grenzen zwischen den klassischen Wissenschaftsdisziplinen, und ein holistischer Forschungsansatz wird das herrschende Paradigma. Die Produktivität von Wissenschaftlern und Arbeitsgruppen werde durch einen partizipativen Ansatz beim Umgang mit Forschungsergebnissen, sprich Daten signi_kant gesteigert. Der klassische Einzelforscher des neunzehnten Jahrhunderts wurde von der Arbeitsgruppe und diese von größeren, vielfäaltigeren Zusammenschlüssen jeweils abgelöost. Die Zurechnung der Leistung zu einer Person stelle nunmehr eine Schwierigkeit dar.

 

Dr. Lorenzo Moneta stellte eine Implementierung des etablierten Ansatzes Software as a Service vor. Mithilfe der Cloud am Cern kann auf das Analyseprogramm ROOT weltweit mithilfe eines Web Browser  zugegriffen werden, ROOT as a Service.

 

Frau Manuela Kuhn vom DESY stellte einen von Virtualisierungsideen getragenen Ansatz zur Bereitstellung individualisierter Arbeitsumgebungen für Forschergruppen dar, die ihre jeweils liebgewordenen, etablierten Verfahrens- und Vorgehensweisen und -methoden gewissermaßen in ein Gastlabor mitnehmen können.

 

Frau Dr. Lena Wiese, Institut für Informatik, Research Group Knowledge Engineering, Fakultät für Mathematik und Informatik der Georg-August Universität Göttingen stellte die Vorteile ausgewählter Ansätze zur Behandlung nicht relationaler Datensätze vor.

 

Herr Dr. Jurry de la Mar, T-Systems, zeigte die Vorteile von Hybriden aus privaten und öffentlichen Clouds. Eine flexible Disposition von Mitteln und Personal erlaubt eine effiziente Nutzung begrenzter Resourcen.

 

Elvin Sindrilaru, IT Storage Group | CERN, demonstrierte schlanke Virtualisierungslösungen, die eine sehr weitgehende Isolierung und Absicherung von hochspezifischen EDV Arbeitsumgebungen erlauben.

 

Jürgen A. Krebs, CTO, Central Region, Hitachi Data Systems erläuterte den Strukturwandel von einem klassischen Geräte- und Hardwarehersteller zu einem Rundum Dienstleister, der von der Planung über Realisierung, Finanzierung und Betrieb bis zur Ablösung nicht mehr zeitgemäßer Lösungen und Geräte eine Gesamtbetreuung und Unterstützung der Kunden und Geschäftspartner ermöglicht. Eine lückenlose Überwachung und Wartung der beim Leistungsempfänger eingesetzten Geräte und Dienstleistungen erlauben einen unterbrechungsarmen, zuverlässigen und kostengünstigen Betrieb, der auf einer möglichst vollständigen Abbildung der jeweiligen Betriebszustände beruht.

 

Jose Castro Leon, CERN Cloud Infrastructure stellt mit Docker einen Virtualisierungsansatz vor, der betriebsichere, resourcenschonende Cloud Infrastrukturen aufzubauen erlaubt.

 

Tutorials zu Docker, ROOT as a Service, der Programmiersprache und Software Entwicklungsumgebung R, dem Configuration Management Programm Puppet, sowie OpenStack folgten.

 

Die Teilnehmer ließen den Abend in angeregten Gesprächen ausklingen.

 

Herr Brendan Bouffler, Amazon Web Services, Amazon zeigte auf, wie Verarbeitungsaufgaben, für die bisher ausschließlich klassische Höchstleistungs-Verbund-Rechner (Cluster) herangezogen werden konnten, mittlerweise mit Cloud-Infrastrukturen geleistet werden können, was auf eine Leistungssteigerung der Cloud Infrastrukturen und verbesserte Hardware zurückzuführen ist.

 

Herr Dr. Andrew Lahiff, Distributed Computing Infrastructure Group, Rutherford Appleton Laboratory stellte mit HTCondor ein System für High Throughput Computing Aufgaben vor, die sich durch begrenzte, aber signifikante Parallelisierbarket, hohe Datenmengen und hohe Rechenanforderungen auszeichnen. Die besondere Stärke stellt die Fähigkeit von HTCondor gegebenfalls während der Laufzeit des Kernprozesses dynamisch Resourcen zu alloziieren.

 

Herr PhD Benedikt Hegner, CERN, berichtete von den Anstrengungen der HEP Software Foundation zur Restrukturierung der Abläufe in der Datenverarbeitung der Hochenergiephysik.

 

Herr Prof. Dr. Peter Braesicke, Stellvertretender Institutsleiter - Gruppenleiter IMK, KIT führte vor, wie Methoden der Large Scale Data Management and Analysis zu einem verbesserten Verständnis des Klimawandels führen können.

 

Tutorials und Praktika zu C++, dem Dateisystem CEPH, Leistungsoptimierung eigener Programme, der Nutzung der Amazon Web Services und der zweite Teil des Puppet Kurses folgten.

 

Herr Prof. Frank Köster, Deutsches Zentrum für Luft- und Raumfahrt, gab am Abend einen Einblick in die Forschungs- und Entwicklungsarbeit der DLR zur autonomen und durch Datenverbund optimierten Steuerung von Fahrzeugen im regulären Straßenverkehr.

 

Herr Dr. Alexander Schug, KIT berichte über die erfolgreiche Verwendung von Big Data Ansätzen zur Aufklärung von Funktion und Struktur von biologischen Molekülen mithilfe von Symmetrie, Ähnlichkeit und Mustererkennung. Die Verwendung physikalischer Modellierungsmethoden erbringt verblüffende Ergebnisse.

 

Herr Dr. Andreas Herten, Forschungszentrum Jülich, verglich CPU gegenüber GPU und zeigte die jeweiligen Stärken und Schwächen der Vertreter dieser beiden Paradigmen für die wissenschaftliche Datenverarbeitung auf.

 

Herr Ingolf Wittmann, Diplom-Informatiker, Technical Director, CTO & Leader of HPC Europe, IBM, stellte den Begriff Cognitive computing zur Diskussion und führte aus, wie dieses Konzept der Nachbildung biologischer Informationsgewinnungsprozesse in der IBM zu wesentlich leistungsfähigen Chip-Entwürfen und damit Maschinen führt.

 

Herr Dr. Eugen Wintersberger, besprach mit HDF5 eine leistungssteigernde Weiterentwicklung des hergebrachten Dateisystemansatzes, der innovative Datensatzkonglomerate verwendet und damit Archivierung und Wiederauffinden zusammenhängender und zusammengehörender Verbunde zusammengehöriger, sehr verschiedenartiger Datentypen erlaubt.

 

Tutorials zu GPU, der Fortschreibung des C++ Ansatzes, der vergleichenden Verwendung relationaler und nicht-relationaler Datenbanken, den Cluster-Systemen Apache Spark und Apache Hadoop, der Programmiersprache Go und der Verwendung der Programmiersprache Python für Analysezwecke folgten.

 

Der Abend bot Raum für einen freien Ideenaustausch.

 

Frau Dr. Liesbeth Vanherpe, École polytechnique fédérale de Lausanne berichtete über Ansätze und Fortschritte im Human Brain Project, wo insbesondere der Informationsaustausch untersuchter Modelle und biologischer, wie technischer Subsysteme untersucht wird.

 

Herr Dr. Frank Baetke, Global HPC Technology Manager, Hewlett Packard Enterprise, gab Einblicke in aktuelle Fortschritte der Entwicklung von The Machine, die eine radikale Abkehr von klassischen Maschinenstrukturen darstellt.

 

Herr PD Dr. rer. nat. Klaus H. Maier-Hein (né Fritzsche), Head of junior research group Medical Image Computing, Deutsches Krebsforschungszentrum Heidelberg, zeigte Möglichkeiten und Grenzen von BIG-Data-Ansätzen in der automatisierten Tumorerkennung und Suche von Reihenaufnahmen und Reihenuntersuchungen.

 

Herr Dr. Manuel Giffels beschloß die GridKa School 2016 mit einer Zusammenfassung, Statistiken und einer Würdigung der Unterstützer Amazon, CERN, Cloudera, DESY, DKFZ Heidelberg, DLR, EPFL, FZ Jülich, Hewlett-Packard Enterprise, Helix Nebula Science Cloud, Hitachi, IBM, KIT, LPC, Mapbox, RAL, RDA, University of Glasgow, University Göottingen.