Objekt-Metadaten
Ontology learning from semi-structured web documents

Autor :Marko Brunzel
Herkunft :OvGU Magdeburg, Fakultät für Informatik
Datum :17.02.2010
 
Dokumente :
Dataobject from HALCoRe_document_00007972
 
Typ :Dissertation
Format :Text
Kurzfassung :Das Forschungsfeld des Ontologielernens beschäftigt sich mit dem Erwerb von semantischen Beziehungen zwischen Entitäten die in Ontologien repräsentiert werden. Unstrukturierte Text-Dokumente dienen hierfür bisher meist als Datenquelle. In letzten Jahren ist sind riesige Mengen an Web-Dokumenten verfügbar geworden. Die Verwendung des Webs als Datenquelle für das Ontologielernen befreit den Anwender davon selbst manuell eine Dokumentensammlung zusammenzustellen. In dieser Arbeit werden gro"se Mengen an Web-Dokumenten als Grundlage für das Lernen verwendet. Web-Dokumente sind semistrukturiert, sie bestehen aus strukturierten und unstrukturierten Bereichen. Die Semistruktur repräsentiert einen von vielen Web-Dokument Autoren manuell geschaffenen Mehrwert, der es wert ist genutzt zu werden. Das Ziel ist es die in Web-Dokumenten enthaltene Semistruktur heranzuziehen um Ontologiebestandteile zu akquirieren, anstatt sie durch Konvertierung zu reinem Text zu beseitigen. Die in dieser Dissertation zu akquirierenden Ontologiebestandteile sind Geschwisterbeziehungen, Begriffe und Synonyme. Die gefundenen Ontologiebestandteile sind wichtig für das Erstellen von Ontologien. Der Schwerpunkt liegt auf dem Erwerb der semantisch plausiblen Geschwisterbeziehungen. Der Kernansatz der in den einzelnen Verfahren verwendet wird ist es, zu den Textabschnitten in den Web-Dokumenten Pfade anhand der Verschachtelung der Strukturauszeichnung zu erstellen. Textabschnitte mit gleichen Pfaden werden als Geschwister gruppiert. Die gefundenen strukturellen Geschwisterbegriffe werden nachfolgend weiterverarbeitet. Es werden Gruppen von Geschwisterbegriffen, Hierarchien von Gruppen von Geschwisterbegriffen und Geschwisterbegriffspaare erlernt. Da dieser Ansatz auf strukturellen Eigenschaften von Web-Dokumenten beruht ist er Sprachunabhängig. Die oft viel schwieriger zu handhabenden Mehrwortbegriffe werden hierbei genauso berücksichtiget wie einfache Wörter. Dies ist besonders wichtig für Sprachen wie die englische Sprache in der zusammengesetzte Wörter nicht so oft verwendet werden wie in der deutschen Sprache. Die erlernten Geschwisterbeziehungen werden anhand von Referenzontologien evaluiert. Die Ergebnisse zeigen dass die Güte höher als bei bisherigen Verfahren ist.
Schlagwörter :ontology learning, sibling groups, learning categories, semi-structured data, data-mining, clustering
Rechte :Dieser Text ist urheberrechtlich geschützt
Größe :XIII, 223 S.
 
Erstellt am :16.03.2010 - 11:29:38
Letzte Änderung :22.04.2010 - 09:06:33
MyCoRe ID :HALCoRe_document_00007972
Statische URL :http://edoc.bibliothek.uni-halle.de/servlets/DocumentServlet?id=7972