Textdokumente enthalten eine Vielzahl an Informationen, sowohl auf lexikalischer, als auch auf struktureller Ebene, die zur Indizierung und Annotation herangezogen werden können. Grundlegende Techniken der Vorverarbeitung des Volltextes ermöglichen das Erkennen der Sprache sowie markanter Begriffe (Named Entity Recognition). Etablierte Textformate enthalten zudem meist Metadaten, bzw. ermöglichen einen Einblick in die logische Struktur des Dokumentes über ein entsprechendes Markup (i. W. XML-basierte Formate wie OpenOffice, MS Word 2007). Eine umfassende Beschreibung eines Dokumentes, die aus all diesen Informationen hervorgeht, sollte für den Nutzer eine geeignete Charakterisierung liefern, um die Suche und Navigation innerhalb einer Dokumentensammlung zu verbessern.
Ausgehend von den Informationen, Merkmalen und möglichen Einsatzszenarien eines Textdo-kumentes soll in dieser Arbeit ein Beschreibungsschema für Textdokumente in RDF bzw. OWL entwickelt werden, das semantische Informationen und Charakteristika geeignet repräsentiert. Dies schließt Untersuchungen ein, wie entsprechende Beschreibungen aus den Quellinformationen erstellt werden können (Klassifikationsverfahren, Verwendung von Thesauri, etc.). Zudem ist ein Konzept zu entwickeln, das die Komponenten des zu entwickelnden Models und dessen Integration in das K-IMM System umfasst. Schließlich sind ausgewählte Funktionen dieser Komponenten zu realisieren und zu evaluieren.
Im Einzelnen sollen folgende Aufgaben bearbeitet werden:
Autor(en): |
Ralf Nagel |
---|---|
Laufzeit: | 01.12.2006 - 31.05.2007 |
Verantwortlicher HSL: | Prof. Dr.-Ing. Klaus Meißner |
Betreuer: |
Dr.-Ing. Annett Mitschick
|
Institut, Lehrstuhl: | SMT, Multimediatechnik |
Zugehörige Projekte: |
K-IMM
|