MMT-Logo
Sitemap | English

Bachelorarbeit

Disambiguierung semantischer Elemente unter Verwendung interner und externer Wissensbasen

Aufgabenstellung

Redaktionen in Verlagen werden mit einer laufend wachsenden Informationsmenge konfrontiert. Das Identifizieren von aktuellen und aufkommenden Themen innerhalb der riesigen Anzahl von Medien, wie z.B. Artikel, Bilder oder Videos, wird dabei zunehmend schwieriger und zeitraubender. Im Forschungsprojekt Topic/S werden deshalb Verfahren erforscht, um Themen semiautomatisch zu erkennen, nach Wichtigkeit aufzubereiten und deren Trend zu analysieren. Die Basis hierfür sind semantisch Elemente, vor allem Entitäten und Stichwörter, die mittels Wortlisten und statistischer Verfahren in den Medien ermittelt werden. Als ein Hauptproblem bei der Erkennung dieser Elemente wurde die Mehrdeutigkeit von Wörtern identifiziert. Ein einfaches Beispiel ist das Stichwort „Golf", was u.a. eine Sportart oder ein Fahrzeug sein kann. Aber auch Rollenkonzepte wie „Bundeskanzler" oder „Papst" ändern über die Zeit die Zuordnung zu bestimmten, eindeutigen Personen.

Um im Topic/S-System eine eindeutige Zuordnung der semantischen Elemente zu ermöglichen, soll das im (Semantic) Web etablierte Konzept des „Uniform Resource Identifiers" (URI) verwendet werden. Hierzu sind in der Bachelorarbeit verschiedene Teilprobleme zu lösen. Zunächst müssen geeignete semantische Wissensbasen für den automatischen Abgleich gefunden werden. Anschließend gilt es einen Algorithmus zu entwerfen, der unter Nutzung von Informationen aus Topic/S-internen und  externen Wissensbasen häufig gemeinsam auftretende semantische Elemente einander zuordnet. Dieses explizite Wissen ist dann Ausgangspunkt für einen Algorithmus zur Disambiguierung bei der Named Entity Recognition für neue Nachrichtenartikel.

Die Bachelorarbeit soll auf den in der Lehrveranstaltung „Vertiefung zur Bachelorarbeit" vermittelten Grundlagen aufsetzen und diese einbeziehen. Dies sind insbesondere:


In der Bachelorarbeit sind insbesondere folgende Teilziele zu erreichen:

 

Weitere Informationen

Autor(en): PersonChristian Ebert
Laufzeit: 02.09.2013 - 30.11.2013
Verantwortlicher HSL: PersonProf. Dr.-Ing. Klaus Meißner
Betreuer: PersonDipl.-Medieninf. Martin Voigt
PersonDipl.-Medieninf. Michael Aleythe
Institut, Lehrstuhl: SMT, Multimediatechnik
Zugehörige Projekte: Topic/S
Zugehörige Partner: Fink & Partner Media Services GmbH