Zurück

Fehlende Daten? (K)Ein Problem!

Leider sind die in der Praxis zur Verfügung stehenden Daten für das Training von Modellen bei weitem nicht so gut und vollständig, wie in den Lehrbüchern. Was also tun? Unvollständige Datensätze ignorieren und damit die zum Training notwendigen Daten deutlich reduzieren? Oder die Lücken besser mit sinnvollen Näherungswerten auffüllen.

Die Session zeigt, ob und wann es sinnvoll ist, fehlende Datensätze aufzufüllen und demonstriert an Real-Life Szenarien verschiedene Verfahren zur sinnvollen Ergänzung fehlender Daten. Neben einfachen Verfahren wie Mean/Median, Random Sample, Mulitple Imputation oder der Interpolationen zeitbezogenen Werte werden auch ML-basierte Imputation-Verfahren wie Regression oder Classification sowie deren potenzielle Einsatzgebiete beleuchtet. Dass fehlende Datensätze im Training auch einen positiven Effekt auf die Qualität des resultierenden Modells haben können, wird ebenfalls gezeigt.

Vorkenntnisse

Grundlegende Kenntnisse in Exploratory Data Analysis (EDA).

Lernziele

Die Teilnehmer:innen lernen, die Relevanz von konkreten Datenlücken zu bewerten und auf dieser Basis zu entscheiden, ob die Lücken generisch gefüllt werden können und wenn ja, mit welchem Verfahren.

Speaker

Lars Röwekamp ist Gründer der open knowledge GmbH und beschäftigt sich als „CIO New Technologies“ mit der Analyse und Bewertung neuer Software- und Technologietrends. Ein besonderer Schwerpunkt seiner Arbeit liegt derzeit auf Enterprise- und Cloud-Computing, Big Data und KI, wobei neben Design und Architekturfragen insbesondere die Real-Life-Aspekte im Fokus stehen.