"Data-driven-Intensivmedizin": Mangel an umfassenden Datensätzen

Jan-Hendrik B. Hardenberg
DOI: https://doi.org/10.1007/s00063-024-01141-z
2024-04-27
Medizinische Klinik - Intensivmedizin und Notfallmedizin
Abstract:Intensivstationen bieten eine datenreiche Umgebung, die das Potenzial hat, Datensätze im Bereich von "Big Data" zu generieren, die genutzt werden könnten, um leistungsfähige Machine-Learning(ML)-Modelle zu trainieren. Die derzeit verfügbaren Datensätze sind jedoch zu klein und weisen eine – durch die Beschränkung auf einzelne Krankenhäuser – zu geringe Diversität auf. Dieser Mangel an umfangreichen und vielfältigen Datensätzen ist ein Hauptgrund für die eingeschränkte Generalisierbarkeit und den daraus resultierenden geringen klinischen Nutzen aktueller ML-Modelle. Häufig basieren diese Modelle auf Daten einzelner Zentren und leiden unter schlechter externer Validität. Es besteht ein dringender Bedarf an der Entwicklung großangelegter, multizentrischer und multinationaler Datensätze. Die Gewährleistung des Datenschutzes und die Minimierung von Re-Identifikationsrisiken stellen dabei zentrale Herausforderungen dar. Die "Amsterdam University Medical Center data base" (AmsterdamUMCdb) und "Salzburg Intensive Care database" (SICdb) zeigen, dass "Open-Access-Datensätze" unter Einhaltung der datenschutzrechtlichen Bestimmungen der Datenschutz-Grundverordnung (DSGVO) auch in Europa möglich sind. Eine weitere Schwierigkeit im Aufbau von Intensivdatensätzen ist das Fehlen von semantischen Definitionen in den Quelldaten und die Heterogenität der Datenformate. Die Etablierung von verbindlichen Industriestandards für die semantische Definition ist entscheidend, um eine nahtlose semantische Interoperabilität zwischen Datensätzen sicherzustellen.
medicine, general & internal
What problem does this paper attempt to address?