Propositionalisierung ist ein Prozess, der von relationalen Daten und Hintergrundwissen zu deren Darstellung in Form einer Tabelle führt, die als Eingabe für verbreitete Systeme der Wissensentdeckung in Datenbanken dient. Systeme für die Propositionalisierung werden seit mehr als 15 Jahren wettbewerbsfähig verwendet. Allerdings zeigten sich auch eine Reihe von Nachteilen. Erstens wurden die Ansätze nicht einheitlich beschrieben. Zweitens waren die traditionellen Ansätze weitgehend auf die Erstellung von Booleschen Eingaben für das Data Mining beschränkt. Drittens skalierten die Algorithmen oft nicht gut. In dieser Arbeit präsentieren wir einen formalen Rahmen, der eine einheitliche Beschreibung von Ansätzen für die Propositionalisierung gestattet. Innerhalb dieses Rahmens erweitern wir existierende Ansätze mit Techniken, die im Gebiet der relationalen Datenbanken populär sind. Durch die Anwendung von Aggregatfunktionen erreichen wir Resultate, die mehr von den Informationen bewahren, die in den ursprünglichen Darstellungen der Lernbeispiele und des Hintergrundwissens enthalten sind. Weiterhin schlagen wir spezielle Schema-Transformationen für Datenbanken vor, um eine hohe Effizienz des Gesamtprozesses zu gewährleisten. Wir legen einen besonderen Schwerpunkt auf die empirische Untersuchung der Ansätze. Dafür verwenden wir Datenmengen und Lernaufgaben mit unterschiedlichen Eigenschaften.
Schlagwörter :
Propositionalization, Inductive Logic Programming, Multi-Relational Data Mining Propositionalisierung, Induktive Logik-Programmierung, Multirelationales Data Mining