Genolator: Ein multimodales Sprachmodell aus der Genommedizin
Personalisierte Medizin erfordert ein tiefes Verständnis des genetischen Codes, um Krankheiten gezielt erkennen und behandeln zu können. Dennoch sind weite Teile des menschlichen Genoms bislang nicht verstanden. Aktuelle Entwicklungen im Bereich der Künstlichen Intelligenz eröffnen neue Perspektiven.
Genolator ist ein multimodales Sprachmodell, das über einen Token-Fusion-Ansatz genomische LLMs und Strukturinformationen mit klassischen LLMs kombiniert. Trainiert auf 360.000 QA-Paaren ist Genolator in der Lage, ein Interface zwischen unserem Genom und der natürlichen Sprache zu schaffen: Es beantwortet präzise Fragen zu Protein-Lokalisation, molekularen Funktionen und biologischen Prozessen.
Vorkenntnisse
Grundlegendes Verständnis zur Funktionsweise von LLMs
Kenntnisse über das Training und die Evaluation von LLMs (vorteilhaft, aber nicht zwingend)
Offenheit und Neugier für neue Anwendungsdomänen aktueller Entwicklungen im Bereich der SprachverarbeitungLernziele
- Erstellung von QA-Datensets für das Training großer (multimodaler) Sprachmodelle
- Verständnis von Genomic LLMs wie Evo2 und ihrer medizinischen Relevanz
- Einblick in die Funktionsweise und Entwicklung multimodaler Sprachmodelle
- Grenzen klassischer Metriken (z.B. Perplexity, Cross Entropy) bei der Bewertung von Sprachmodellen
- Visualisierung und alternative Evaluationsstrategien
- Bedeutung der Genommedizin für Therapie, Forschung und unser Leben