MMT-Logo
Sitemap | English

Masterarbeit

Skalierbare semantische Suchstrategien für sehr große heterogene Daten

Aufgabenstellung

Das Forschungsprojekt PREFAM hatte das Ziel, die betriebliche Phase im Lebenszyklus eines Gebäudes mittels Semantik, Gebäudemodell und Dokumentenmanagement zu begleiten, um so u. a. den Nutzern ein Werkzeug zur effizienten Suche nach Informationen und Dokumenten bereitzustellen.
Grundannahme ist eine homogene Datenbasis, die initial in das System eingespielt wird. Im Rahmen der praxisnahen Erarbeitung einer Archivlösung, auf Basis der Erkenntnisse aus PREFAM, hat sich gezeigt, dass die Datenaufbereitung zur Archivierung gut automatisierbar ist. Die Vielzahl der Daten sind jedoch untereinander sehr heterogen. Ziel der Arbeit ist die Konzeption einer Middleware, die der Anwendungsebene eine Schnittstelle für komplexe Suchanfragen zur Verfügung stellt (Such-API) und die auf einer Datenschnittstelle aufsetzt, welche z. B. die Inhalte aller Dokumente in Form formatfreier Texte, die mit den Dokumenten verbundenen Metadaten, aus den Dateiinhalten generierte Indexinformationen und Kontextinformationen zur Verfügung stellt. Die Datenschnittstelle liefert somit alle „Rohdaten“ der Dokumente des Archivs, wie auch Kontextinformationen des Verarbeitungs- und Nutzungsprozesses der Dokumente. Aufgabe der Middleware ist einerseits, die Rohdaten um semantische Informationen so zu erweitern, das eine semantische und intelligente Suche im Dokumentenarchiv möglich wird und andererseits, Suchanfragen der Anwendung intelligent und performant über das gesamte Dokumentenarchiv zu ermöglichen. Die sich daraus ergebenden Forschungsfragen betreffen z. B. die bei sehr großen Dokumentenarchiven notwendige Skalierung der semantischen Modelle (Wissensgraph, Ontologien) sowie Metadaten- / Index-Dateien aber auch die für die performate Suche notwendige kontextspezifische Unterscheidung zwischen operativen Dokumenten und solchen, die über lange Zeiträume archiviert werden. Ausgangspunkt ist eine vom Industriepartner zur Verfügung gestellte Dokumentensammlung, eine Spezifikation der Datenschnittstelle und eine Beschreibung typischer Suchszenarien. Zudem wird die Spezifikation des Such-APIs vorgegeben. Zunächst wird auf Basis dieser Informationen gemeinsam mit dem Industriepartner ein Anforderungskatalog formuliert. Ausgehend davon ist in einer gründlichen Analyse des Standes der Forschung und Technik zu ermitteln, welche prinzipiellen Lösungsansätze sich für die gezeigten Problemstellungen ergeben. Darauf aufbauend soll dann das Konzept für die Middleware unter Berücksichtigung der das Skalierungsproblem adressierenden Algorithmen entwickelt werden. Das Konzept ist schließlich in wesentlichen Teilen prototypisch umzusetzen und mit einer einfachen Suchanwendung unter Nutzung der vorgegebenen Suchszenarien zu evaluieren. Konkret sollen folgende Teilziele erreicht werden:
  • Analyse der angestrebten Suche, Charakterisierung der vorliegenden Daten sowie der sich daraus ergebenden Probleme und Formulierung eines Anforderungskataloges an die angestrebte Lösung
  • Gründliche Untersuchung und Dokumentation des Standes der Forschung und Technik in dem zuvor ermittelten Problemkreis
  • Bewertung der verschiedenen Lösungsalternativen und Entwicklung eines Konzepts zur Lösung der zuvor ermittelten Anforderungen
  • Prototypische Umsetzung wesentlicher Teile des Konzepts
  • Evaluierung des Konzeptes anhand der zur Verfügung gestellten Szenarien und Datensätze

Weitere Informationen

Autor(en): PersonFelix Mai
Laufzeit: 01.02.2016 - 11.07.2016
Verantwortlicher HSL: PersonProf. Dr.-Ing. Klaus Meißner
Betreuer: PersonDipl.-Medieninf. Gregor Blichmann
PersonDipl.-Medieninf. Sandro Schmidt
Institut, Lehrstuhl: SMT, Multimediatechnik
Zugehörige Projekte: PREFAM
Zugehörige Partner: planConnect