openBI: Wat is en Data Warehouse?

31. August 2009 um 4:23 pm | Veröffentlicht in BI, Data Warehouse, Palo | 2 Kommentare

DWH Architektur

Wo simmer denn dran? Aha, heute krieje mer de Data Warehouse. Also, wat is en Data Warehouse? Da stelle mer uns janz dumm. Und da sage mer so: En Data Warehouse is ene große schwarze Raum, der hat hinten un vorn e Loch. Dat eine Loch hinten, dat is de Feuerung. Und dat Loch vorn, dat sind … die Frontendlösungen der Endnutzer – wie Excel, Dashboards und OLAP-Applikationen.

Das – etwas abgewandelte 😉 – Zitat von Physiklehrer Bömmel aus der Feuerzangenbowle passt einfach wunderbar: das Data Warehouse ist die dunke Seite – das Backend – von Business Intelligence (BI). Was verbirgt sich hinter diesem Begriff?

Das Data Warehouse (DWH) an sich ist für den Großteil der BI-Nutzer völlig uninteressant:  Für sie bleibt das DWH eine black box und es wird als gegeben vorausgesetzt. Dabei ist das DWH das Herz jeder BI-Lösung, ohne dass nichts geht und dessen Einrichtung eine sehr komplexe und individuelle Angelegenheit ist. Seine Architektur entscheidet über Art und Weise, wie die BI-Anwender über ihre Frontends auf Informationen zugreifen und analysieren können.

Daher halte ich es für sehr wichtig, die Idee des Data Warehouse und die Beweggründe zur Errichtung eines solchen zu kennen. Insbesondere alle Beteiligten eines BI-Projektes sollten das gleiche Verständnis von der Architektur eines DWH und den in diesem Kontext verwendeten Begriffen haben.

Data-Warehouse bedeutet wörtlich aus dem Englischen übersetzt „Daten-Lager“. In einem DWH werden alle entscheidungsrelevanten Daten aus den operativen (OLTP-)Systemen zur Steuerung einer Organisation redundant vorgehalten – also mindestens „gedoppelt“! Es ist eine Art institutionelles Gedächtnis, denn es vergisst nichts. Ein gutes DWH ist so strukturiert, dass alle gewünschten Geschäftsberichte einfach und schnell erzeugt werden können.

Es existieren viele Architekturvorschläge zur Errichtung eines Data Warehouses. Meine favorisierte Infrastruktur sieht wie folgt aus und entspricht weitestgehend den Ideen des DWH-Gurus Ralph Kimball:

DWH Architektur

Ein Data Warehouse umfasst mehrere Komponenten: angefangen von den Quellsystemen aus denen die relevanten Daten bei der Datenbelieferung mittels ETL-Prozesse (Extract, Transform, Load) abgezogen werden, über das sog. Operational Data Store (ODS) bis zum unternehmensweiten Data Warehouse (EDW – Enterprise Data Warehouse) und den abteilungsorientierten Data Marts.

Die einzelnen Komponenten im Detail erklärt:

  • Quell- / OLTP-Systeme
    Diese Systeme sind die „Arbeitspferde“ der Unternehmen. Sie sind darauf spezialisiert, eine große Anzahl an einzelnen Transaktionen, wie zum Beispiel Buchungen, Lagerbewegungen und Aufträge, schnell und sicher zu verarbeiten. Dies geschieht möglichst parallel, für viele Benutzer gleichzeitig. Die Datenstrukturen dieser operationalen Systeme sind an den betriebswirtschaftlichen Abläufen und Funktionen des Unternehmens ausgerichtet. Als entscheidungsunterstützende Systeme sind sie kaum geeignet, da komplexe Abfragen das System zu sehr belasten und die Antwortzeit inakzeptabel ist.
  • Datenbelieferung / ETL-Prozess
    Der kritischste Prozess in der DWH-Infrastruktur ist der Datentransport von den Quellsystemen in das Data Warehouse. Die Daten müssen aus den Quellsystemen Extrahiert, bereinigt und nach einheitlichen Regeln Transformiert in das Data Warehouse geLaden werden. Damit sind die ETL-Prozsse die „Feuerung“ des DWH und versorgen dieses in regelmäßigen Intervallen mit den neuesten Daten. Open Source Werkzeuge für diese Aufgabe sind z.B. Talend Open Studio, Pentaho Data Integration – vormals KETTLE – sowie der Palo-eigene ETL-Server.
  • Data Warehouse
    Der Kern der Data Warehouse-Architektur ist die Ebene der Datenvorhaltung für analytische Zwecke. Wenn man so will, das DWH im engeren Sinne. Es besteht aus verschiedenen ODS-Töpfen (Operational Data Stores), die zusammen das unternehmensweite Data Warehouse ausmachen – den single-point-of-truth – sowie den Data Marts. In ODS liegen harmonisierte, transaktionale Daten der Quellsysteme auf Belegebene, die regelmäßig und in kurzen Intervallen aktualisiert werden. Dagegen enthalten Data Marts aggregierte entscheidungsunterstützende Informationen; sie sind – anders als die ODS – an den spezifischen Anforderungen der Entscheider ausgerichtet, werden aber aus den ODS im Sinne Hub-and-Spoke Architektur befüllt. Durch den Einsatz dieser Data Marts wird die Abfrage von Informationen vereinfacht und enorm beschleunigt. Ein Data Mart ist letztlich der Topf an zu beantworteten Fragen durch das Data Warehouse. Aber was passiert, wenn sich die Fragen ändern? Nun in diesem Fall müssen die Data Marts auf Basis der ODS angepasst werden oder neu aufgebaut werden. Insofern ist es nützlich, wenn in den ODS möglichst viele Beleginformationen enthalten sind. Durch den sog. DWH-Bus wird sichergestellt, dass uniforme Dimensionen über mehrere Data Marts hinweg genutzt werden. Das heißt nichts anderes, als dass z.B. ein Kunde in allen Data Marts immer mit der gleichen Schlüssel-ID geführt wird.
    Palo – ein Open Source MOLAP-Server – ist ein phantastisches Tool für den Aufbau dieser Data Marts und deren Abfrage aus Excel heraus – ohne SQL-Kenntnisse. Palo ermöglicht auch die Umsetzung des beschriebenen DWH-Busses.
  • Frontends
    Aus meiner Sicht gibt es drei wesentliche Reportingkategorien: Ad-hoc-Abfragen aus operativer Perspektive, Dashboards und webapplikationen für ein unternehmensweites Reporting und OLAP-Analysen.

Drei Anmerkungen zur DWH/BI-Projektarbeit:

  • Angeblich scheitern 80% aller BI-Projekte bereits in der Anfangsphase. Bitte die Regel „Think big, start smart“ beachten. Konkret: ODS-Töpfe sauber befüllen und zunächst „einfache“ Data Marts bilden.
  • Für DWH-Projekte gilt das Pareto-Prinzip: 80%  der gewünschten Funktionalitäten lassen sich mit 20% des Gesamtaufwandes des Projekts verwirklichen, die verbleibenden 20% kosten richtig Geld.
  • Durch ein BI-Projekt werden Daten mehrerer operativer Quellen integriert, die bis zu diesem Zeitpunkt in der Verantwortung von verschiedenen Abteilungen standen. Darüber hinaus müssen Mitarbeiter aus Management, IT und Fachbereich zusammenarbeiten. In diesem Kontext treten häufig Konflikte auf, die aus „Abteilungs-Silodenken“ sowie unterschiedlichen Zielen der Unternehmensbereiche und dem gesamten Unternehmen resultieren. Hier ist ein starkes Management mit klaren Zielen gefordert, das dem BI-Projektleiter den Rücken stärkt.

Soweit … ich hoffe, die dunkle Seite von BI – die Black Box Data-Warehouse – erscheint nun in etwas hellerem Licht.

PS: Noch einmal die Zahl 80: Es hält sich hartnäckig das Gerücht, gestützt durch einschägige Untersuchungen, dass Controller bis zu 80% Ihrer Arbeitszeit mit dem – manuellen – Zusammenführen von Daten verbringen. Eine Tätigkeit, die aus meiner Sicht durch ein Data Warehouse minimiert werden sollte, so dass Controller wieder mehr Zeit für Ihre orignäre Aufgabe haben:  der Planung und Steuerung von Unternehmensprozessen und Entscheidungsunterstützung.

Advertisements

2 Kommentare »

RSS feed for comments on this post. TrackBack URI

  1. […] Wie ich finde handelt es sich bei OpenBI um eine sehr gelungene Seite zum Thema Business-Intelligence und allem was damit zusammen hängt. Ein Besuch lohnt sich in jedem Fall. Hier gehts direkt zum zum Beitrag. […]

  2. […] das Ergebnis, um es in PowerPoint einzufügen. Sobald die Daten für den aktuellen Berichtsmonat im Data Warehouse – z.B. einem SAP BW oder Palo – vorliegen, sind die Exceltabellen und -Diagramme auf  […]


Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

Bloggen auf WordPress.com.
Entries und Kommentare feeds.

%d Bloggern gefällt das: