Cookies

Die Deutsche Messe verwendet Cookies, um die Website bestmöglich an die Bedürfnisse unserer Besucher anpassen zu können. Wenn Sie auf der Seite weitersurfen stimmen Sie der Cookie-Nutzung zu. Infos zum Datenschutz

OK
Data Center, Server & Storage Solutions

Data Lake: Tauchen im Datensee

Data Warehouses und ihre Reporting-Systeme sind oft unflexibel und müssen an neue Strukturen und Datenbanken angepasst werden. Das Konzept des Data Lakes verspricht Abhilfe.

09.02.2018 Quelle: t3n Enno Park
Quelle: maciek905 Adobe Stock
Quelle: maciek905 Adobe Stock

Die Grundidee für Data Lakes ist eigentlich ganz einfach: Starr strukturierte Datenbankformate wie klassische Data Warehouseses sind unternehmensweit durchgeplant und dementsprechend unflexibel. Verloren gehen dabei alle unstrukturierten Daten, die in einem Unternehmen so anfallen: E-Mails, Word-Dokumente oder Daten aus Systemen, die nicht ans Data Warehouse angebunden sind. Da liegt es nahe, alle Daten zentral in einem einzigen großen Repository zu speichern. Die Datenmengen, die dabei entstehen, sind so groß, vielfältig und unstrukturiert, dass Big-Data-Techniken eingesetzt werden müssen. So basieren Abfragen und Anwendungen von Data Lakes meist auf dem Hadoop-Framework oder Microsoft Azure.

Erfunden hat den Begriff James Dixon, CTO des Business-Intelligence-Software-Anbieters Pentaho. In einem Blogpost von 2011 vergleicht er den Data Mart aus einem klassischen Data-Warehouse-System mit einem Laden voller Wasserflaschen. Die Flaschen und ihr Inhalt sind gereinigt und einheitlich abgefüllt, können ohne großen Aufwand gelagert, transportiert oder aus dem Regal genommen und getrunken werden, aber niemand weiß, was im Abfüllprozess an interessanten Daten verloren gegangen ist. Der Data Lake hingegen steht für den See voller Wasser in seinem natürlichen Zustand. Dieser See wird aus einem stetigen Strom unstrukturierter Daten gefüllt, und wer sie auswerten möchte, kann ihn untersuchen, Proben nehmen oder darin tauchen.

So benutzt zum Beispiel Vestas, ein Hersteller von Windkraftanlagen, einen Data Lake, um die geografisch besten Standorte für das Aufstellen von Windrädern herauszufinden. Eingang in die Analyse finden Karten und Wetterdaten genauso wie Betriebsdaten aus bestehenden Anlagen. Die Ergebnisse werden Kunden und Vertriebsmitarbeitern zur Verfügung gestellt. Besonders beliebt sind Data Lakes überall dort, wo große Mengen an Sensordaten und ähnliches anfallen, klassischerweise beim Tracking von RFID-Tags oder Sammeln von Daten aus IOT-Devices.

Big Data für Unternehmensdaten

Im Grunde steckt hinter dem Wort "Data Lake" also nur die Anwendung von Big Data auf Unternehmensdaten. Der Vorteil liegt scheinbar auf der Hand: Unverbundene Datensilos in den Unternehmen sollen der Vergangenheit angehören. Braucht ein Unternehmen andere Informationen als bisher, müssen nicht mehr alle Strukturen und Prozesse angepasst werden. Es genügt, neue Abfragen per Hadoop an das große Repository zu formulieren. Zu einem Data Lake gehört also eine Suchmaschine, die anders als bei den strukturierten Abfragen klassischer Data Warehouses eine freie Suche erlaubt. Natürlich gehen die Möglichkeiten aber über den Betrieb einer solchen internen Suchmaschine hinaus. Der Data Lake bietet auch die Möglichkeit, die enthaltenen Daten zu taggen, zu filtern und zu sortieren und mit eigener Software zu verbinden – etwa mit dem Framework Data Rush von Pervasive. Eine weitere Idee ist, den Zufluss von Daten in den Data Lake zu kontrollieren, etwa durch das Formulieren von Events, deren Eintreten dann in Echtzeit weitere Aktionen oder Reports triggert.

Allerdings stellt so ein Data Lake Unternehmen auch vor Probleme. So kritisierte der Informatiker David Needle, viele Firmen würden große "Datenfriedhöfe" anlegen und seien dann unfähig, diese sinnvoll auszuwerten. Nur größere Firmen, die in der Lage sind, ein entsprechendes Team zu beschäftigen, das immer neue Abfragen und Anwendungen auf Basis des Data Lakes entwickelt, können die Flexibilität wirklich ausschöpfen. Die Unternehmensberatung Gartner warnt gar vor einem Data-Lake-Trugschluss: Die Daten seien zwar vorhanden und könnten großflächig verarbeitet werden, aber es ist sehr schwierig, Vollständigkeit und Qualität der Daten sicher zu stellen. Nach gängiger Definition nimmt ein Data Lake alles an Daten auf, was hineingekippt wird. Dabei sind aber Relevanz, Vollständigkeit und Integrität der Daten nicht per se gegeben. Für letzteres werden vollständig konträre Konzepte wie zum Beispiel Blockchains benutzt, die von einem hoch standardisierten Datenformat ausgehen und somit das Gegenteil eines Data Lakes sind.

Ein weiteres Problem bei Data Lake stellt der Datenschutz dar: Entsprechende Regelungen verhindern, dass alle möglichen Daten einfach im Data Lake gespeichert werden können. Kontext und Semantik von Daten können beim Einleiten in den See verloren gehen. Ein einfaches Beispiel: Für Analysen ist es oft wichtig, welches Datum ein bestimmter Datensatz hat. Das aber setzt schon wieder ein Mindestmaß an Strukturierung innerhalb des Datensees voraus und ist schwer sauber zu halten: Ein Eintrag mit dem Datum 29.01.2018 kann zum Beispiel Rohdaten enthalten, die aus ganz anderen Zeiträumen stammen. So kann aus einem „Data Lake“ leicht ein "Data Swamp" werden, ein Datensumpf, der sich nicht mehr sinnvoll auswerten lässt.

Das heißt nicht, dass ein Data Lake nutzlos wäre. So können natürlich hoch strukturierte Daten dennoch Teil eines Data Lake sein und zugleich lassen sich interessante Schlüsse auch aus nicht vollständigen Daten ziehen, etwa wenn verschlüsselte Daten, die im "See" herumschwimmen, zwar nicht direkt ausgewertet werden können, sehr wohl aber ihre Metadaten, wenn sie mit abgespeichert wurden. Ein Data Lake ist also in den meisten Fällen kein Ersatz für die bisherigen Strukturen im Unternehmen oder ein klassisches Data Warehouse. Es kann aber eine sinnvolle Ergänzung sein, insbesondere wenn im Unternehmen große Mengen unstrukturierter Daten anfallen, die sich verwenden lassen, etwa um neue Geschäftsmodelle zu entwickeln.