|
Multi-Layered Data View Concept |
|
Eine der zentralen Eigenschaften von RapidMiner (früher YALE) ist die Fähigkeit,
Operatorketten zu verschachteln und damit komplexe Data Mining Prozesse durch
Operatorbäume abzubilden.
Um diese Fähigkeit effizient zu unterstützen, verhält sich das RapidMiner Kernsystem
wie ein Datenbanksystem und bietet die Möglichkeit, mehrere Sichten (Views) auf eine
Datenquelle zu überlagern.
Diese Fähigkeit bezeichnen wir mit Multi-Layered Data View Concept.
Beispielsweise könnte ein erster View eine Teilmenge der Daten auswählen (Tabellenzeilen)
und ein zweiter View eine Teilmenge der verwendeten Merkmale (Tabellspalten).
Das Ergebnis ist eine einzelne Sicht auf die Daten, welche beide Views berücksichtigt.
Andere Views können beispielsweise zur Laufzeit neue Variablen generieren.
Die Anzahl solcher Schichten ist dabei unbegrenzt.
Das Multi-Layered View Concept ist darüber hinaus auch eine sehr effiziente Möglichkeiten
einen Datensatz mehrfach zu verwenden - ohne die Daten tatsächlich zu kopieren!
Dies ist insbesondere wichtig für automatisierte Verfahren zur Datenvorverarbeitung wie
Merkmalsauswahl oder -konstruktion.
Beispielsweise kann die Population eines evolutionären Verfahrens aus unterschiedlichen
Sichten auf dieselbe Datentabelle bestehen.
|