Techniken des Data Merging in Integrationssystemen

Jens Bleiholder
Abstract:Die Integration von Daten aus heterogenen Informationsquellen ist ein bekanntes Forschungsthema im Datenbankbereich. Bei der Integration treten drei verschiedene Arten der Heterogenitat auf: Technische Heterogenitat bezeichnet die Heterogenitat auf Plattformund Formatebene. Strukturelle Heterogenitat bezeichnet die Heterogenitat auf Schemaebene. Diese tritt auf, wenn gleiche Domanen unterschiedlich modelliert werden. In letzter Zeit tritt verstarkt semantische Heterogenitat, die sich mit den Daten und deren Bedeutung befasst, als Forschungsthema in den Vordergrund. Im Rahmen des HumMer-Systems zur Integration heterogener Informationsquellen wird semantische Heterogenitat auf Datenebene betrachtet. Unterschiedliche Informationsquellen konnen sowohl sich erganzende als auch widerspruchliche Daten uber gleiche Objekte enthalten. Wie solche Konflikte in Daten automatisch und sinnvoll aufgelost werden konnen, ist eine noch nicht zufriedenstellend beantwortete Fragestellung. Der Beitrag gibt einen Uberblick uber bereits existierende Verfahren des data merging, wie sie in ausgewahlten integrierenden Informationssystemen (z.B. TSIMMIS) angewandt werden. Desweiteren werden Techniken zur Integration genannt, die auf relationaler Algebra basieren. Zuletzt wird die Architektur des integrierenden Informationssystems HumMer (Humboldt Merger) vorgestellt. Dabei wird auf den Entwurf und die Realisierung der Data Merging Komponente naher eingegangen.
What problem does this paper attempt to address?