Ein Wunsch, mehrere Visionen
Wie in unserem Bild dargestellt, bestehen vor dem Anlegen eines Anglerparadieses unterschiedliche Visionen bezüglich dessen zukünftiger Nutzung und Größe. So verhält es sich auch bei einem Data Lake.
Es gibt in der Regel unterschiedliche Vorstellungen über dessen zukünftige Rolle in der Organisation und bei der Steuerung eines Finanzinstituts. Unterschiedliche Visionen hinsichtlich der Nutzungsausrichtung, -breite und -intensität erfordern in der Folge häufig unterschiedliche Lösungsansätze betreffend Datenarchitektur, Art und Umfang von Servicefunktionen oder auch Regelungen zur Governance.
Data Lake: Mehr als nur ein großes Data Warehouse
Auf Basis dieser Ausgangslage gilt es bereits in der Planungs- und Entwicklungsphase die zukünftige Rolle des Data Lake nicht vorzeitig einzuschränken. Es besteht häufig die Gefahr, dass erste bekannte Anwendungsfälle als Maßstab verwendet werden und die architekturelle Gestaltung prägen beziehungsweise determinieren. Ein Ansatz zur Konzeption eines Data Lake sollte berücksichtigen, dass wesentliche zukünftige Anwendungsfälle gerade erst im Rahmen der Verwendung und Analyse größerer und breiterer Datenmengen identifiziert und bewertet werden.
So steht in einem Financial Data Warehouse die Erzeugung bereits definierter Kennzahlen und Reports unter Verwendung einer definierten fachlichen Methodik im Vordergrund. Dies führt zu einer Datenarchitektur mit gut strukturierten bis normierten Daten. Aber ein Data Lake ist nicht bloß ein deutlich vergrößertes Data Warehouse. So darf dieser (Daten-)Architekturansatz gegebenenfalls partiell, aber keineswegs Data Lake-weit angewendet werden. Denn andere Use Cases „leben“ von der Bereitstellung möglichst vieler „Rohdaten“, da die genaue Art der Verwendung und Analyse beim Onboarding oftmals noch gar nicht klar ist. Dies betrifft im Wesentlichen Datenanalysen zur Trend-/Mustererkennung, zur Erstellung von Prognosen (prädiktive Analysen) sowie zur Herleitung von Handlungsoptionen und Entscheidungsfindungen (präskriptive Datenanalysen). Als Beispiele seien hier nur (prädiktive) Analysen historischer Daten zur Ausweitung des Vertriebs oder zur Optimierung der Produktentwicklung genannt. Die Aufbereitung der „Rohdaten“ erfolgt dabei individuell und bezogen auf die jeweilige Verarbeitungsmethodik.
Welche Handlungsempfehlungen können also für die Zielarchitektur eines Data Lake und die Roadmap zu deren Erreichung gegeben werden?
Think Big!
Die Einführung eines Data Lakes ist nur sinnvoll, wenn die Nutzungsart eines klassischen Financial Data Warehouse überstiegen wird und Use Cases zu prädiktiven oder präskriptiven Datenanalysen im Fokus sind. Dies gilt es sorgfältig abzuwägen, da hierfür nicht nur Investitionen in Architektur und Tools, sondern auch in Know-how betreffend dieser Analysemethoden erforderlich sind.
Fällt die Entscheidung zugunsten eines Data Lake, so bedeutet dies auch „Think Big!“ bezüglich der aufzunehmenden Datenvielfalt und -menge. Bei der Anbindung beziehungsweise Aufnahme von Daten sollte daher weniger auf die direkte Nutzung in Berichten oder Methoden als auf ein mögliches Nutzenpotential geachtet werden. Im Rahmen der Roadmap können aber trotzdem Quick Wins erzielt werden. Dies gelingt zum Beispiel durch die Aufnahme von Rohdaten für eine Data Warehouse-Versorgung (Data Staging), die dann wiederum – eine ausreichende Historisierung vorausgesetzt – auch für weitere Use Cases (zum Beispiel Prognosen) verwendet werden können. Der Data Lake muss also fit für "Big Data" sein:
- Bezogen auf die Technologie bedeutet dies die Auswahl einer flexiblen und skalierbaren IT-Architektur und Infrastruktur für die quasi unbegrenzte Aufnahme von Daten unterschiedlicher Formate.
- Die fachliche Datenarchitektur muss zwar strukturiert, aber offen und ohne Migrationsaufwand erweiterbar sein.
- Für Datenauswertungen sind Tools und Know-how zu prädiktiven und präskriptiven Analyseverfahren erforderlich.