Vielen Dank an alle Beteiligten für eine erfolgreiche M3 2024 in Köln! Im Herbst geht es weiter mit M3-Online-Events!

Effizientes Maschinelles Lernen auf On-Premise-Clustern mit Dask

Große ML-Modelle lassen sich heute nur auf verteilten Systemen trainieren. Meist kommen dabei Cloud-basierte Compute-Cluster zum Einsatz. Die benötigten Daten werden vom Host zur Cloud und innerhalb des Clusters kopiert. Das ist ineffizient und unökonomisch.

Lokale Clusterrechner können diese Nachteile ausgleichen. Die Datenhaltung ist effizient, vermeidet unnötige Kopien, garantiert Datensicherheit und effizientes Training.

Wir zeigen am Beispiel eines Dask-Clusters das Training effizienter ML-Modelle mit großen Datensätzen. Die Datenverteilung übernimmt das Clusterdateisystem und garantiert gleichzeitig Datensicherheit bei Ausfall einzelner Komponenten.

Vorkenntnisse

Grundlegende Kenntnisse von IT-Systemen und verteilten Dateisystemen

Lernziele

  • Verständnis für die Nutzung von Datenlokalität
  • Nutzung von verteilten Systemen zur Datensicherung
  • Vor- und Nachteile von On-Premise-Systemen abschätzen können

Speaker

 

Max Conzen
Max Conzen ist Wissenschaftlicher Mitarbeiter in den Bereichen Software Engineering, Data Engineering und Data Science an der Fachhochschule Aachen.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden