Belegarbeit
Identifikation interessanter Bereiche in semantischen Daten
Aufgabenstellung
Das Projekt VizBoard zielt
darauf ab, semantische Daten für den Endanwender durch webbasierte
Informationsvisualisierung nutz- und verstehbar zu machen. Ein Problem ist
hierbei, die komplexen Datenstrukturen und großen -mengen, die teils in der
Linked Open Data Cloud zusammengefasst werden, für den Anwender zugänglich zu
machen, so dass er sich gezielt eine (komposite) Informationsvisualisierung erstellen
kann. Hierzu existiert in VizBoard der „Pre-Selection"-Schritt, der das Navigieren
und Filtern sowie das Auswählen eines Teilbereiches des semantischen Datensatz
ermöglicht.
Obwohl die ersten Ergebnisse
vielversprechend sind, besteht noch immer das Problem, dem Nutzer einen
einfachen Einstieg in die teils riesigen RDF-Graphen zu gewähren. An dieser
Stelle kann das Maß der „Interessantheit" von Daten, welches bereits im Data
Mining relationaler Datenbanken verbreitet ist, helfen. Hierbei wird zwischen
dem objektiven und subjektiven Interessantheitsgrad unterschieden, wobei sich
ersterer allein aus der Datenstruktur ergibt und letzterer den jeweiligen
Nutzer in Bezug zu den Daten setzt.
Ziel dieser Arbeit ist die
Entwicklung eines Konzepts, dass dem Nutzer die „Pre-Selection" erleichtert, in
dem ihm automatisiert objektiv und subjektiv interessante Daten empfohlen
werden. Hierbei ist zunächst zu evaluieren, mit welchen Werkzeugen die
Interessantheit in semantischen Daten ermittelt werden kann. Anschließend sind
die aktuell in VizBoard integrierten Hilfsmittel, wie Clustering oder
Graphmetriken, zu evaluieren und ggf. zu erweitern. In Bezug auf die objektiven
Merkmale sind vor allem Trends oder Abweichungen von Relevanz und dem Anwender
anzuzeigen. Um subjektive interessante Daten zu signalisieren, soll u. a. verfolgt werden, welche Art von Daten der
Anwender über die Zeit nutzte. Daraus sind Empfehlungen für andere Datensätze zu
generiert und aufzuzeigen. Letztlich gilt es, die Benutzerschnittstelle bzgl.
der aktualisierten und neuen Funktionen auszubauen und das Gesamtkonzept zu
evaluieren.
Im Einzelnen sind folgende
Teilziele zu erreichen:
- Entwicklung eines geeigneten Szenarios zur
Veranschaulichung des Nutzens des Interessantheitsgrades aber auch zur
Ableitung von Anforderungen an das spätere Konzept.
- Untersuchung des Standes der Forschung und Entwicklung,
speziell in den Bereichen Data Mining und Knowledge Discovery, zur
Identifikation von Möglichkeiten zur automatischen Bestimmung des
Interessantheitsgrades von Teilgraphen in semantischen Daten.
- Erweiterung des Pre-Selection-Konzepts im Back- und
Frontend, um dem Anwender interessante Daten hervorzuheben. Neben den
Anforderungen aus dem Szenario und dem State-of-the-Art ist auf die Erweiterbarkeit,
Performanz und Bedienbarkeit zu achten.
- Prototypische Umsetzung des Konzepts als
Erweiterung der Data Pre-Selection und Evaluation anhand geeigneter Datensätze
sowie einer kleinen Nutzerstudie.
Weitere Informationen