MMT-Logo
Sitemap | English

Diplomarbeit

Konsolidierung automatisch extrahierter Informationen in einer semantischen Wissensbasis

Aufgabenstellung

Multimediale Dokumente enthalten eine Vielzahl an Informationen. Bei Textdokumenten ermöglichen Techniken der Verarbeitung natürlicher Sprache das Erkennen markanter Begriffe (Named Entity Recognition) und Zusammenhänge (Coreference Resolution, Extraction Patterns, ...). Inhaltliche Informationen, die auf Basis einer Ontologie in einer Wissensbasis instanziiert werden, können auf diese Weise dem Nutzer eine geeignete Organisationsmöglichkeit liefern, um die Suche und Navigation innerhalb einer Dokumentensammlung zu verbessern. Allerdings produzieren automatische Extraktions- und Instanziierungsverfahren oftmals Duplikate (Instanzen, die das gleiche Objekt bzw. den gleichen Sachverhalt repräsentieren) oder widersprüchliche Daten.

Ziel dieser Arbeit ist es, aufbauend auf der bereits existierenden Textanalysekomponente des K-IMM Systems, sowie dem derzeitigen Ontologiemodell und der Instanziierungsmethodik, ein Konzept für die Bereinigung (Konsolidierung) der automatisch extrahierten Informationen zu entwickeln und dieses prototypisch zu implementieren. Dabei geht es im Wesentlichen um die Identifikation von Duplikaten bei Personen-, Orts- und Zeitbeschreibungen, jeweils unter Berücksichtigung der entsprechenden Abstraktionsmöglichkeiten. Konzept und Implementierung sollen jedoch weitestgehend generisch und flexibel sein. Die Implementierung ist schließlich in einem selbst gewählten Anwendungsszenario zu testen, wobei demonstriert werden soll, dass wiederkehrende Namen, Objekte oder Zeitangaben, die in einer Menge zusammengehöriger Dokumente erkannt werden, eindeutig und einmalig in der Wissensbasis instanziiert werden.

Im Einzelnen sind folgende Aufgaben zu bearbeiten:

Weitere Informationen

Autor(en): PersonRalf Nagel
Laufzeit: 01.09.2007 - 29.02.2008
Verantwortlicher HSL: PersonProf. Dr.-Ing. Klaus Meißner
Betreuer: PersonDr.-Ing. Annett Mitschick
Institut, Lehrstuhl: SMT, Multimediatechnik
Zugehörige Projekte: K-IMM