Belegarbeit

Modellierung semantischer Beschreibungen für Textdokumente

Aufgabenstellung

Textdokumente enthalten eine Vielzahl an Informationen, sowohl auf lexikalischer, als auch auf struktureller Ebene, die zur Indizierung und Annotation herangezogen werden können. Grundlegende Techniken der Vorverarbeitung des Volltextes ermöglichen das Erkennen der Sprache sowie markanter Begriffe (Named Entity Recognition). Etablierte Textformate enthalten zudem meist Metadaten, bzw. ermöglichen einen Einblick in die logische Struktur des Dokumentes über ein entsprechendes Markup (i. W. XML-basierte Formate wie OpenOffice, MS Word 2007). Eine umfassende Beschreibung eines Dokumentes, die aus all diesen Informationen hervorgeht, sollte für den Nutzer eine geeignete Charakterisierung liefern, um die Suche und Navigation innerhalb einer Dokumentensammlung zu verbessern.
Ausgehend von den Informationen, Merkmalen und möglichen Einsatzszenarien eines Textdo-kumentes soll in dieser Arbeit ein Beschreibungsschema für Textdokumente in RDF bzw. OWL entwickelt werden, das semantische Informationen und Charakteristika geeignet repräsentiert. Dies schließt Untersuchungen ein, wie entsprechende Beschreibungen aus den Quellinformationen erstellt werden können (Klassifikationsverfahren, Verwendung von Thesauri, etc.). Zudem ist ein Konzept zu entwickeln, das die Komponenten des zu entwickelnden Models und dessen Integration in das K-IMM System umfasst. Schließlich sind ausgewählte Funktionen dieser Komponenten zu realisieren und zu evaluieren.
Im Einzelnen sollen folgende Aufgaben bearbeitet werden:

Darstellung des Standes der Forschung und Technik auf dem Gebiet der semantischen Beschreibungen von Textdokumente, sowie Untersuchung existierender Ontologien und Schemata, die insbesondere zur Beschreibung von Textdokumenten verwendet werden.
Zusammenstellung und Darstellung der Informationen und Merkmale, die aus Textdoku-menten extrahiert werden können.
Darstellung typischer Anwendungsszenarien in Bezug auf die semantik-basierte Verwaltung von Textdokumenten.
Konzeption der Komponenten eines Beschreibungsschemas für Textdokumente mittels RDF-Schema bzw. OWL, sowie Spezifikation dessen Integration in das bestehende K-IMM System.
Prototypische Realisierung ausgewählter Funktionen der Komponenten, basierend auf be-stehenden und parallel weiterentwickelten Textanalysefunktionen sowie Test und Evaluation an repräsentativen Text-/Dokumentenmengen.

Weitere Informationen

Autor(en):	Ralf Nagel
Laufzeit:	01.12.2006 - 31.05.2007
Verantwortlicher HSL:	Prof. Dr.-Ing. Klaus Meißner
Betreuer:	Dr.-Ing. Annett Mitschick
Institut, Lehrstuhl:	SMT, Multimediatechnik
Zugehörige Projekte:	K-IMM