Open Source Software für Big Data Analytics.
Ohne Programmierung.

HomeKontaktSucheSitemapDatenschutzImpressum
  • Deutsch
  • English
Rapid-I. Report the Future. Home Download
News

KDNuggets Studie: Rapid-I-Lösungen sind Nummer 1 unter den Analyse-Tools.

weiter …
 

Besuchen Sie Rapid-I auf der CeBIT 2013 und erfahren Sie mehr über Big Data Analytics.

weiter …
 

Führendes Analystenhaus nimmt Rapid-I ins "Who's Who in Text Analytics" auf

weiter …
 

Rapid-I 2012: Erfolgreiche US-Expansion, neue Kunden und Partner.

weiter …
 

RapidMiner 5.3: Mehr Analysen, mehr Datenquellen und eine neue Anbindung an den Marketplace

weiter …
 

 

 

Interview: Big-Data-Analysen mit RapidMiner und Radoop

Big-Data-Analysen mit RapidMiner und Radoop ein Interview mit Dr. Ingo Mierswa und Zoltán Prekopcsák

 

1. Wie kam die Zusammenarbeit zwischen Radoop und Rapid-I zustande?

 

Zoltan: Wir sind langjährige Anwender von RapidMiner und haben tolle Gespräche mit Rapid-I Leuten bei Business-Intelligence-Konferenzen und bei den RCOMM Konferenzen geführt. Beide Arbeitsteams haben einen akademischen Hintergrund und wir teilen eine Begeisterung für Datentechnologien, was die Zusammenarbeit sehr leicht gemacht hat. Nachdem wir die erste Version von Radoop entwickelt hatten, haben wir mit zunehmender Häufigkeit Kontakt gehabt. Wir hatten viele Ideen, wie wir uns gegenseitig unterstützen könnten und haben uns deshalb entschlossen, unsere Zusammenarbeit zu formalisieren.

 

Ingo: Ich habe Zoltan zum ersten Mal bei unserer jährlichen Anwenderkonferenz RCOMM kennengelernt, die 2010 unweit des Rapid-I Gesellschaftssitzes in Dortmund stattgefunden hat. Zoltan hat seine Arbeit im Bereich der Big-Data-Analysen präsentiert. Obwohl RapidMiner mehrere Lösungen für das Arbeiten auf sehr großen Datensätzen anbietet, haben sich Zoltan und sein Radoop-Team der Herausforderung gestellt, auf Basis der neuesten Entwicklungen auf dem Big-Data-Gebiet eine noch bessere Lösung zu entwickeln. Die Ergebnisse waren und sind weiterhin sehr positiv und ich persönlich freue mich sehr über die Zusammenarbeit.

 

2. Eines der ersten Ergebnisse dieser Zusammenarbeit war die RapidMiner-Extension Radoop. Was bietet diese Extension ihren Anwendern an?

 

Ingo: Radoop verbindet die Stärken von RapidMiner und Hadoop. Das Ergebnis ist eine RapidMiner-Extension für die Aufbereitung und die Durchführung von ETL, Datenanalysen und Prozessen des maschinellen Lernens über Hadoop. Radoop integriert die hochoptimierten Datenanalysefähigkeiten von Hive und Mahout eng in die benutzerfreundliche RapidMiner-Oberfläche. Entstanden ist dadurch eine leistungsfähige und bedienungsfreundliche Datenanalyse-Lösung für Hadoop.

 

Zoltan: Radoop ermöglicht es RapidMiner-Anwendern, auf die in Hadoop-Clustern gespeicherten Big Data zuzugreifen und diese zu analysieren. Jetzt ist es möglich, auch Terabyte und Petabyte von Daten von derselben intuitiven Oberfläche aus zu analysieren. Man kann ETL und Data-Mining-Prozesse konstruieren, die auf dem Hadoop-Cluster laufen sowie Beispieldaten in RapidMiner visualisieren. Radoop beseitigt nahezu das Speicherlimit für RapidMiner und ermöglicht es diesem, auf sehr große Datensätze zu skalieren. Wir haben RapidMiner für viele unserer Data-Mining-Projekte eingesetzt. Er war sehr anwenderfreundlich, aber einige unserer Projekte brachten sehr große Datenbanken mit sich, denen RapidMiner noch nicht gewachsen war. Wir haben begonnen, komplizierte verteilte Technologien wie Hadoop einzusetzen, aber die Arbeit damit hat sich als sehr schwierig erwiesen. Wir wollten diese Lücke mit Radoop füllen und gleichzeitig die Leistungsstärke verteilter Systeme und eine bedienungsfreundlichen Oberfläche zur Verfügung stellen.

 

3. Welche Auswirkung wird dieses Produkt auf Big-Data-Analysen haben?

 

Ingo: Während andere Unternehmen noch von Big Data und der Überwindung damit verbundener Probleme sprechen, freuen wir uns, bereits die Lösung für die einfache Konstruktion von Datentransformationen und analytischen Prozessen auf Basis von Hadoop bekannt geben zu können. RapidMiner + Radoop bilden die weltweit erste firmentaugliche Lösung für Big-Data-Analysen auf Basis von Hadoop. Die meisten aktuellen Initiativen zielen auf die infrastrukturelle Ebene von Hadoop ab. Radoop hingegen hat das Ziel, dem Analysten bei seiner täglichen Arbeit – unter Verzicht auf jegliche Codierung - zu unterstützen.

 

Zoltan: Sehe ich auch so. Big-Data-Tools sind heute äußerst kompliziert, müssen manuell definiert werden und erfordern zudem auch Programmierkenntnisse. Experten sind also schwer zu finden. Mit ihrer grafischen Drag&Drop-Benutzeroberfläche zur Definition von Workflows der Big-Data-Analyse erleichtern Radoop und RapidMiner Big-Data-Analysen erheblich. Viele Unternehmen haben bereits den einen oder anderen Big-Data-Experten, aber die sind dann die einzigen, die auf Daten zugreifen und diese analysieren können. Mit Radoop soll dies noch vielen Analysten – auch Nichttechnikern – ermöglicht werden.

 

Ingo: Unternehmen, die Big Data noch nicht analysieren, bekommen hier auch eine Gelegenheit. Dank der Einfachheit von Radoop können sie ihre ersten Schritte auf diesem Feld machen, ohne für diese Aufgabe extra Experten anstellen zu müssen. Auch wenn die Auswirkung für Big Data-Anfänger am größten sein könnte, bietet Radoop so viele Funktionalitäten und Abkürzungen für typische Aufgaben an, dass auch Experten viel produktiver werden.

 

4. Wie wird sich Ihrer Meinung nach das Thema Big Data grob entwickeln?

 

Ingo: Marktwünsche nach deskriptiver Analyse auf Basis von herkömmlichen Methoden wie OLAP entwickeln sich z.Z. zu Wünschen nach prädiktiver oder gar präskriptiver Analyse. Statt auf Fragen zu antworten wie „was ist passiert?“ kann man jetzt Antworten auf Fragen erwarten wie „was wird passieren?“ oder „was kann ich jetzt am besten tun?“ Techniken aus diesen Bereichen setzen fundierte Kenntnisse von Methoden aus der Statistik UND der Informatik voraus. Wie Gartner vor kurzem betont hat, stellt der Mangel an Experten auf diesem Gebiet ein großer Engpass dar, der Unternehmen davon abhält, diese neuen Methoden sowie die Software-Tools anzunehmen, in denen diese Methoden enthalten sind. Als erste Gesamtlösung, die fortgeschrittene Datenanalysen auf Basis von Hadoop vereinfacht, soll Radoop diese Situation komplett ändern.

 

Zoltan: Es gibt nun einen großen Rummel um Big Data und wir werden in den kommenden Jahren sowohl viele Erfolge als auch viele Misserfolge beobachten. Analysten müssen darauf achten, dass sie nicht Qualität mit Quantität ersetzen. Mehr Daten sind nicht unbedingt besser. Die Leute müssen verstehen, dass Big-Data-Tools wie Hadoop nur die Infrastruktur zur Verfügung stellen und sie noch die besten Anwendungsfälle für ihren Betrieb herausfinden müssen. Big Data hat zwar ein sehr großes Potenzial, ist aber kein Zauberstab, der jedes Problem löst.

 

Ingo: Für mich als Datenanalysten, der schon seit fast 15 Jahren Techniken aus Data-Mining und Text-Mining verwendet, sind Big Data eigentlich nichts Neues. Big Data ohne Analysen nützen überhaupt nichts. Die analytischen Ergebnisse sind wichtig, um neue Geschäftschancen oder Bedrohungen im Voraus zu identifizieren. Deshalb bin ich natürlich sehr glücklich, dass der Bedarf an Analysen jetzt allgemein als eines der wichtigsten Themen für die Informatik der Zukunft angesehen wird.

 

5. Was sind für Sie die großen Big-Data-Herausforderungen?

 

Zoltan: Für mich sind die zwei wichtigsten Herausforderungen die Kompliziertheit aktueller Werkzeuge und der Mangel an Leuten, die diese bedienen können. Es gibt einen erheblichen Mangel sowohl an Analyseexperten als auch an Managern mit Datenkenntnissen, was den Erfolg mit großen Datenprojekten erschwert. Ich bin überzeugt, dass Radoop und RapidMiner gute Arbeit leisten, um die mit großen Daten verbundenen Komplikationen zu verringern, damit mehr Leute jetzt auf große Datensätze zugreifen und diese analysieren können.

 

Ingo: Ein weiterer wichtiger Aspekt bei Big Data ist der Umstieg von strukturierten Daten auf halbstrukturierte, poly-strukturierte und auch vollständig unstrukturierte Daten. Die Daten sind nicht mehr Teil eines Data-Warehouses mit einem Data-Mart sondern werden auf mehrere Stellen verteilt – und sind manchmal nicht einmal mehr in Tabellenformat. Unstrukturierte Daten wie Textsammlungen stellen eine ganz spezielle Herausforderung für Big-Data-Analysen dar.

 

6. Sie haben neben großen Datenmengen und poly-strukturierten Daten auch von fortgeschrittenen Analysen gesprochen. Was bietet hier RapidMiner seinen Anwendern bereits an?

 

Ingo: RapidMiner ist aktuell die Lösung mit den meisten Funktionalitäten für fortgeschrittene Analysen auf dem Markt. Was Textdaten angeht: alleine von den Support-Vektor-Maschinen bieten wir sieben Varianten an, die insbesondere bei Textklassifikationsaufgaben sehr leistungsfähig sind. Die meisten anderen Lösungen auf dem Markt bieten nicht einmal eine einzige Version dieser leistungsfähigen Lerntechnik an. Das ist bei anderen Methoden auch der Fall: insgesamt bietet RapidMiner mehr als 250 Methoden für Datenmodellierung und Hunderte Vorgänge für Datentransformationen an. Und jetzt fügt Radoop neue Vorgänge hinzu, die dem Zugriff auf Daten aus Hadoop und der Anwendung von Hadoop-Clustern für Berechnungen und Datentransformationen dienen.

 

7. O.K., zurück zum Thema Radoop. Was ist der Hauptvorteil von Radoop gegenüber anderen Werkzeugen für Big-Data-Analysen?

 

Zoltan: Für mich ist einer der wichtigsten Vorteile die enge Verbindung zu dem weltweit führenden Data-Mining-Werkzeug. RapidMiner hat eine aufgeräumte und intuitive Oberfläche sowie eine Datenflussphilosophie, die wir für Big Data erfolgreich erweitert haben. Dank der engen Integration von RapidMiner und Radoop kann der Benutzer verteilte und speicherinterne Analysen auch im selben Prozess mit derselben Oberfläche durchführen. Dies ist eine sehr leistungsfähige Paketlösung, die sonst keiner anbietet.

 

8. Warum sollten Unternehmen diese Kombination ausprobieren?

 

Zoltan: RapidMiner Anwender können sehr schnell lernen, mit Radoop umzugehen. Für sie stellt es eine natürliche Weise dar, um auf ihre größeren Datensätze zuzugreifen und diese zu analysieren. Für andere hingegen stellt die Kombination aus Radoop und RapidMiner eine Gesamtlösung für alle Datenmengen und Datenanalyseprobleme dar.

 

Ingo: Genau! Datenmengen sind mit dieser Lösung kein Engpass mehr. Unternehmen, die eine ganzheitliche Lösung für Datenintegration, -transformation und -analyse wünschen, erhalten jetzt all das in einer bedienungsfreundlichen Oberfläche - auch für die größten Datensätze.

 

9. Welche sind die Bereiche/Vertikalen, in denen Radoop die größten Vorteile aufweisen wird?

 

Zoltan: Radoop weist dort die größten Vorteile auf, wo große Datensätze häufig vorkommen. Wir konnten ein ungeheures Datenwachstum bei Web-Unternehmen wie sozialen Netzen und Social Games beobachten und außerdem haben auch Webseiten mit Millionen Besuchern Probleme bei der Speicherung und der Analyse des Verhaltens ihrer Kunden. Sie benötigen eine skalierbare Lösung, die mit ihrem schnellen Wachstum mithalten kann. Damit ist die nahezu unbegrenzte Skalierbarkeit von Radoop für sie sehr interessant.

 

Ingo: Es haben viele Unternehmen aus dem Finanzsektor Interesse gezeigt, bei denen historische Daten in riesigen Mengen vorhanden sind und dazu dienen können, künftige Ergebnisse zu verbessern, insbesondere durch bessere Modelle für die Kreditwürdigkeitsprüfung oder für Churn Prevention. Uns wurde vom Sektor der Kranken- und Gesundheitspflege beträchtliches Interesse gezeigt sowie von der Branche der Telekommunikation und dem Einzelhandel. Viele dieser Sektoren haben schon jahrelang große Datensätze; sie benötigen nichts mehr als ein einfaches Werkzeug, um aus diesen Daten Nutzen zu ziehen.

 

10. Zoltan, Sie haben Radoop auf der RCOMM 2011 zum ersten Mal zur Schau gestellt. Wie hat es sich seitdem entwickelt?

 

Zoltan: Als wir Radoop im Juni 2011 auf der RCOMM präsentiert haben, war das damals ein technologischer Machbarkeitsnachweis. Wir haben gezeigt, dass wir RapidMiner mit Hadoop unter Beibehaltung der jeweiligen Hauptvorteile integrieren können und wollten erfahren, ob wir damit auf Interesse stoßen. Wir haben viel Feedback erhalten und seitdem konzentrieren wir uns auf die Erprobung und Stabilisierung der Lösung sowie deren Tauglichkeit für die häufigsten Anwendungsfälle eines Unternehmens. Wir haben die Lösung um viele neue Funktionalitäten erweitert, die unseren Beta-Testern gefehlt haben, und wir haben die Kompatibilität sowohl mit RapidMiner selbst als auch mit den verschiedenen erhältlichen Hadoop-Versionen verbessert.

 

11. Was ist für die Zukunft geplant? Sind irgendwelche Verbesserungen in Sicht?

 

Zoltan: Radoop befindet sich noch in einer privaten Betaphase und wir visieren eine öffentliche Freigabe im 2. Quartal 2012 an. Wir werden nun für mehr Funktionalitäten für Predictive Analytics auf Big Data und höhere Kompatibilität mit externen Systemen sorgen sowie für eine bahnbrechende neue Funktionalität, die ich vorerst nicht bekanntmachen darf. Es wird wahrscheinlich die Art verändern, wie Unternehmen über ihre Big-Data-Infrastruktur denken.

 

Ingo: Rapid-I wird RapidMiner weiterhin um neue analytische Algorithmen erweitern und seinem Weg treu bleiben, die flexibelste und leistungsfähigste aber gleichzeitig auch bedienungsfreundlichste Lösung anzubieten. Die nächste große RapidMiner-Version beinhaltet zum Beispiel eine neue interne Datenbehandlung sowie eine Unterstützung für Parallel-Stream-Handling. Diese Verbesserungen stellen ebenfalls einen unmittelbaren Nutzen für Radoop-Benutzer dar.

 

12. Ist die Rapid-I-Community an dieser Entwicklung beteiligt?

 

Ingo: Einige Mitglieder der RapidMiner-Community haben bei der Erprobung von Radoop mitgewirkt und haben Feedback für die Extension gegeben. Diese Einblicke sind für die Entwickler sehr wichtig und tragen dazu bei, die Software zu verbessern und sie robuster zu gestalten, um in der Vielzahl an Szenarien, in denen Radoop bereits eingesetzt worden ist, zweckdienlich zu sein.

 

Zoltan: Radoop ist zwar keine Community-Projekt, aber wir tragen Patches für die von uns benutzen Open-Source-Tools, darunter natürlich RapidMiner und Hadoop. Es ist sehr wichtig, dass Radoop eine gute Verbindung zu der Community hat und wir werden die nächste RCOMM-Konferenz in Budapest am Ende dieses Sommers mit organisieren.

 

13. Was sind Ihre Zukunftspläne für die Zusammenarbeit im Big-Data-Bereich?

 

Zoltan: Zu unseren kurzfristigen Zielen gehört die Integration von Radoop mit der RapidMiner Server Version, die RapidAnalytics genannt wird. Radoop und RapidAnalytics würden die Planung von Big-Data-Prozessen sowie die Zusammenarbeit zwischen Analysten ermöglichen. Das wird wieder eine super leistungsfähige Kombination, die Endanwendern Ergebnisse aus Big-Data-Analysen innerhalb von Reports oder Dashboards über die Server-Web-Schnittstelle zur Verfügung stellen kann.

 

Ingo: Rapid-I und Radoop haben einen Ansatz für eine neue und professionelle Big-Data-Initiative auf Basis von Big Data definiert. Langfristig werden die Bemühungen beider Unternehmen – wie z.B. Stream Handling, In-Database-Mining sowie jetzt auch Radoop – dazu beitragen, jede Benutzer- und Kundengruppe bei beliebigen Datenmengen und analytischen Problemen zu unterstützen.

 
  • Share/Bookmark
  • Abbonieren Sie unseren RSS Feed!
  • Sehen Sie sich Videos in unserem YouTube Channel an!
  • Rapid Insight / Inside Rapid-I (Blog)
  • Besuchen Sie Rapid-I bei Facebook und werden Sie Fan!
  • Folgen Sie Rapid-I bei Twitter!
  • Lesen Sie den Rapid-I Newsletter