Verrauschte Daten korrigieren mit Weak Supervision
Für viele NLP-Anwendung werden gelabelte (vorklassifizierte) Datensets benötigt. Diese stehen entweder bereits implizit zur Verfügung (z.B. durch Kategorien in Wikipedia) oder müssen manuell klassifiziert werden.
In beiden Fällen ergeben sich häufig Fehler, die Kategorien sind verrauscht (noisy). Modelle, die mit solchen Daten trainiert werden, können so nicht optimal funktionieren.
Vor kurzer Zeit wurde daher das sogenannte Weak-Supervision-Verfahren entwickelt, das mit genau diesen Daten sehr viel besser umgehen kann. Im Bereich der Named Entity Recoginition wurden damit bereits erhebliche Erfolge erzielt.
Dieser Vortrag geht auf den aktuellen State of the Art ein und zeigt, wie die Methode auch in anderen Szenarien zum Einsatz gebracht werden kann.