Objekt-Metadaten
Enhancing text classification to improve information filtering

Autor :Carsten Lanquillon
Herkunft :OvGU Magdeburg, Fakultät für Informatik
Datum :07.12.2001
 
Dokumente :
Dataobject from HALCoRe_document_00006748
 
Typ :Dissertation
Format :Text
Kurzfassung :Im heutigen Informationszeitalter steht der Mensch einer Flut von Informationen gegenüber. Informationfilterung hat zum Ziel, die Informationslast seiner Anwender bezüglich ihrer Interessengebiete zu reduzieren. Dabei werden nicht relevante Dokumente eines Stroms von Informationen entfernt, so dass den Anwendern nur relevante Dokumente präsentiert werden. Wir beschränken uns hier auf Textdokumente und behandeln Informationsfilterung als ein binäres Textklassifikationsproblem, das sich mit Hilfe überwachter Lernverfahren lösen lässt. Anhand von Beispielen mit bekannten Klassenzugehörigkeiten lernen diese Verfahren Klassifikatoren, die dann für die Klassifikation neuer Dokumente verwendet werden. In realen Anwendungen von Informationsfiltern treffen wir auf drei Probleme. Erstens benötigt man zum Lernen effektiver Klassifikatoren in der Regel eine große Menge klassifizierter Beispiele. Für komplexe Textklassifikationsaufgaben wird die Bereitstellung dieser Lernbeispiele schnell zu einem sehr kostspieligen und auch unüberwindbaren Problem, weil sie von Menschen gelesen und klassifiziert werden müssen. Zweitens setzen viele gängige Lernverfahren homogene Klassen voraus. Die beim Informationsfiltern zugrundeliegenden Klassen sind jedoch oft heterogen. Das dritte Problem liegt in der Annahme, dass die beim Lernen verwendeten Beispiele und die zu klassifizierenden Daten von derselben Quelle stammen. Dokumentquellen können sich aber mit der Zeit verändern, so dass mit dynamischen Aspekten umgegangen werden muss. In dieser Dissertation wird untersucht, wie stark eine zu kleine Menge an Lernbeispielen, heterogene Klassen sowie sich mit der Zeit verändernde Datenquellen die Klassifikationsleistung beim Informationsfiltern beeinflussen. Für die dabei beobachteten Probleme entwickeln wir geeignete Lösungen. Insbesondere reduzieren wir die Menge benötigter Lernbeispiele durch die Verwendung halbüberwachter Lernalgorithmen. Diese lernen anhand weniger klassifizierter Beispiele und einer größeren Menge nicht klassifizierter Beispiele, die meist sehr kostengünstig zur Verfügung stehen. Weiterhin untersuchen wir Lösungsansätze zum Erlernen heterogener Klassen. Um gezielt mit den dynamischen Aspekten beim Informationsfiltern umgehen zu können, verwenden wir Methoden der statistischen Qualitätskontrolle. Dadurch versuchen wir, Veränderungen in Informationsströmen ohne zusätzlichen Benutzeraufwand zu erkennen, um dann die Anwender zu benachrichtigen, dass die verwendeten Filter anzupassen sind. Empirische Auswertungen zeigen, dass die in dieser Arbeit vorgestellten Ideen zur Lösung der beim Informationsfiltern beobachteten Probleme beitragen können.
Schlagwörter :Textklassifikation, Informationsfilterung, halbüberwachtes Lernen, Qualitätskontrolle
Rechte :Dieses Dokument ist urheberrechtlich geschützt.
 
Erstellt am :16.04.2009 - 08:13:02
Letzte Änderung :22.04.2010 - 08:35:35
MyCoRe ID :HALCoRe_document_00006748
Statische URL :http://edoc.bibliothek.uni-halle.de/servlets/DocumentServlet?id=6748