Um Daten zu visualisieren, gibt es eine große Auswahl verschiedener Tools. Darunter der Klassiker Excel, aber auch andere Lösungen wie Tableau, Power BI, Google Data Studio, MicroStrategy und viele weitere. All diese Programme werden der Business Intelligence (BI) zugeschrieben. Der Blogartikel befasst sich mit zwei ganz spezifischen: Microsoft Power BI und Google Data Studio. In der Einteilung des Gartner Magic Quadranten könnten beide nicht unterschiedlicher dastehen.
Microsoft ist mit seiner hauseigenen BI-Lösung fest etabliert. Google zählt zu den Herausforderern am Markt. Während es sich eines der beiden Unternehmen also bereits gemütlich gemacht hat, besteht beim anderen noch Nachholbedarf. In diesem Artikel soll es aber nicht darum gehen, die beiden Tools in die Gladiatoren-Arena zu werfen und daraus resultierend einen Sieger zu bestimmen. Stattdessen werden wir uns verschiedene Bereiche anschauen und die Art und Weise, wie die Tools in diesen Disziplinen operieren, genauer beleuchten.
Beginnen wir mit der Basis: den Konnektoren.
Konnektoren
Bei der Anzahl der Konnektoren hat ganz klar Google Data Studio die Nase vorn. Power BI verfügt über weniger Möglichkeiten, sich mit Daten aus externen Quellen zu verknüpfen. So sind beispielsweise Datenquellen, die im Marketing wichtig sind, wie etwa LinkedIn Ads, Google Ads oder HubSpot, in Power BI nicht nativ verfügbar.
Liste aller Power Query-Connectors
Community Connectoren sind eine gute Erweiterung zu den bereits von Google Data Studio angebotenen. Hier ist jedoch zu beachten, dass beim Individualisieren und Anpassen eines Dashboards Probleme auftreten können, deren Lösung mit einigem Aufwand verbunden ist. Da sich die Datenquelle nicht als Ganzes einsehen lässt, entsteht eine „Black Box“, welche den Umgang erschwert.
Datenverarbeitung
In diesem Punkt werden die Unterschiede der Tools sehr deutlich. Google Data Studio etwa ist für die Visualisierung und Verknüpfung fertiger, verarbeiteter Daten ideal. Nachträglich können allerdings keine umfangreichen Anpassungen am Rohmaterial vorgenommen werden. Deshalb müssen die Daten im Voraus so behandelt werden, dass sie perfekt für die Auswertung geeignet sind. Anderenfalls ist eine Verknüpfung nicht möglich. Dazu aber später mehr.
Insbesondere bei der Arbeit mit komplexeren, unterschiedlichen oder auch unsauberen Systemen bietet es sich an, eine Verarbeitungsebene vor Google Data Studio zu schalten. Hier wäre Google Data Studio also geeignet, um Daten losgelöst voneinander zu betrachten: Leadzahlen ohne Kosten sowie Kosten ohne Leadzahlen auf verschiedenen Seiten.
Power BI bringt mit Power Query und der eigenen Programmiersprache M bereits eine Ebene für die Datenverarbeitung mit. Hier können die rohen Daten im Tool angepasst werden. Das ist besonders für einen „schlanken" Einstieg und eine Übergangsphase hilfreich. Theoretisch ist es nicht erforderlich, dass eine groß angelegte Infrastruktur bereit steht, um erste Mehrwerte zu generieren. Diverse Daten aus verschiedenen Quellen, wie etwa Excel oder SharePoint, können zunächst angezapft und anschließend die Infrastruktur aufgebaut sowie modifiziert werden.
Datenverknüpfung
Google Data Studio ist in der Lage, zwischen mehreren Tabellen Verknüpfungen herzustellen. Dazu werden sogenannte Joins benutzt. Diese verbinden Tabellen auf Basis einer gemeinsamen Spalte. Das Problem ist, dass hierbei Daten verdoppelt werden können, wenn etwa ein Wert in der Spalte mehrfach vorhanden ist. Wer sich dafür interessiert, wie das genau aussieht, dem sei das folgende Beispiel ans Herz gelegt:
Stellen wir uns zwei Tabellen vor. Eine beinhaltet die Namen von Personen und die andere deren Bestellungen sowie die entsprechenden Kosten. Häufig wird versucht, die Daten in einer Datenbank redundanzfrei zu halten, indem man mit IDs arbeitet und darüber Verknüpfungen erstellt. Das ist der Fall, wenn die Daten nicht für die Analyse ausgelegt sind.
user_id |
name |
---|---|
1 |
John Smith |
2 |
Max Mustermann |
order_id |
user_id |
cost |
---|---|---|
1 |
1 |
500 |
2 |
1 |
250 |
3 |
2 |
450 |
Verknüpft man diese Tabellen nun auf Basis ihrer user_id, so kann man sehen, dass der Name John Smith zweimal vorkommt.
order_id |
user_id |
cost |
---|---|---|
1 |
1 |
500 |
2 |
1 |
250 |
3 |
2 |
450 |
Möchte man herausfinden, wie viele Nutzer vorhanden sind, können Fehler entstehen, wenn nicht die korrekte Berechnung gewählt wurde. Das ist kein unlösbares Problem, aber etwas, was bei Auswertungen bedacht werden muss.
Darüber hinaus ist bei Google Data Studio die Benennung der Spalten in verknüpften Tabellen entscheidend. Wurde etwa eine Tabelle mit der Spaltenbezeichnung “Name” angelegt und wird nun mit einer zweiten Tabelle mit gleicher Benennung verknüpft, so erhält man in der neu verknüpften Tabelle zwei Spalten mit dieser Bezeichnung. Leider werden dann die Original-Namen nicht in der Tabelle aufgelistet, sondern folgendermaßen strukturiert: Tabelle 1, Tabelle 2 etc.; je nachdem, wie die Tabellen verknüpft wurden.
Wir können das Problem der doppelten Datensätze in Power BI umgehen, indem Tabellen auf Basis von Beziehungen synchronisiert werden. Diese funktionieren ähnlich wie Joins, duplizieren aber keine Daten, da stattdessen eine Spalte als Referenz genommen wird. Kurz gesagt heißt das, dass Power BI Werte aus Tabelle A nehmen kann, wenn in der Spalte für die Beziehung derselbe Wert steht wie in Tabelle B. Dadurch sind auch komplexe Modelle mit sehr vielen Tabellen möglich. Man spricht dann von einem Schema mit Fakt- und Dimensions-Tabellen oder einem Sternschema.
Bild-Quelle Wikipedia
Dabei verbleiben die Daten in ihren ursprünglichen Tabellen. Man arbeitet also weiterhin mit den Listen aus dem oberen Beispiel und würde sie untereinander anhand einer Beziehung, in dem Fall der user_id verknüpfen und so gemeinsam auswerten können. Dieses Modell ist für den gesamten Bericht dasselbe. Es könnten somit für verschiedene Bereiche der Auswertung sogar unterschiedliche Layouts von Modellen genutzt werden.
In Power BI ist es theoretisch auch möglich, beliebig viele Quellen miteinander zu verknüpfen. Die Limitation wird hier durch die eigene Rechenleistung und durch die Begrenzung der Größe von Datenmodellen in Power BI Online gegeben. Diese liegt bei einem Gigabyte. Bei größeren Datenmodellen streikt der Power BI Online Dienst für Pro Lizenzen. Mit größeren Lizenzen kann auch das umgangen werden, was aber wiederum mit höheren Kosten verbunden ist.
Datenvisualisierung
Was die Visualisierung betrifft, so arbeiten beide Tools mit Berichten und Seiten. Jeder Bericht hat mehrere Seiten, auf denen Visualisierungen wie Diagramme, Tabellen oder Karten dargestellt werden. Die Programme beinhalten die Funktionalität, eigene Visuals zu entwickeln. In Power BI gibt es dazu den Visuals Marketplace, wo Diagramme von anderen Entwicklern eingebunden werden können. Alternativ programmiert man eigene Diagramme in R oder Python.
Ausführen von R-Skripts in Power BI Desktop
Ausführen von Phyten-Skripts BI Desktop
Allerdings ist die Verwendung dieser beiden Möglichkeiten leicht eingeschränkt, wenn es darum geht, die Berichte online zu veröffentlichen.
In Google Data Studio kann mithilfe von Community Visualizations gearbeitet werden. Diese ermöglichen es ebenfalls, komplett eigene Diagramme zu entwickeln. Die Umsetzung ist mithilfe von JavaScript, HTML und CSS möglich.
Grundlegend unterscheiden sich die Tools in dieser Hinsicht nicht. Ebenfalls verfügen beide über die erweiterte Funktionalität der “Cross-Filterung”. Davon spricht man, wenn man in einem Diagramm auf einen Wert klickt und dadurch die anderen Diagramme gefiltert werden. Ein anschauliches Beispiel findet sich in der offiziellen Google Dokumentation. In dieser Kategorie sind beide Tools gleichwertig. Zu erwähnen wäre hier lediglich noch die Möglichkeit der Custom Themes von Power BI Desktop, welche man mithilfe von JSON erstellen kann.
Ein weiterer Punkt ist, dass bei Google Data Studio pro Visualisierung stets die Datenquelle selektiert werden muss. Hat man also mehrere Datenquellen, zum Beispiel diverse Tabellen einer Datenbank in einem Bericht, muss man immer pro Diagramm die entsprechende Tabelle auswählen.
Interaktivität
Einen Teil der Interaktivität haben wir bereits bei der Datenvisualisierung behandelt. So bieten beide Tools die Möglichkeit von “Cross-Filterung”. Es gibt aber noch weitere Optionen, mit Tools zu interagieren, wie etwa mithilfe von “Drill-Downs” und “Drill-Through”. Diese beiden ähnlich klingenden Namen haben ziemlich unterschiedliche Funktionen. Bei einem Drill-Down erhöht man die Granularität einer Auswertung. Wie etwa von Jahr > Monat > Tag. Man geht somit immer eine Ebene tiefer und steigert damit den Detailgrad der Auswertungen. Ein Drill-Through wiederum ist anders. Bei diesem zieht man einen Wert aus einem Diagramm heran und nutzt diesen als Filter auf einer anderen Seite eines Berichts. Wenn man also beispielsweise die Anzahl der Bestellungen nach Monaten einsieht, kann man mithilfe eines Drill-Throughs die expliziten Bestellungen für den Monat auf einer weiteren Seite abbilden. Hier hat Power BI einen Vorsprung, weil es über die Möglichkeit eines Drill-Throughs verfügt. Drill-Downs hingegen bieten beide Tools an.
Kosten
Die Desktop-Version von Power BI kann für den Einstieg kostenfrei installiert werden. Ebenfalls möglich: Das Erwerben einer Power BI Free Lizenz mit dem Geschäftskonto. Hier ist man aber sehr limitiert, was das Teilen der Berichte angeht. Möchte man seine Ergebnisse anderen Personen zur Verfügung stellen, so müssen die Power BI Dateien als Anhang einer Nachricht verschickt werden, wie etwa eine Excel-Mappe oder PDF. Erst mit der Pro Lizenz ab 8,40 € können die Berichte online geteilt werden. Allerdings benötigen dann auch die Personen, mit denen man den Bericht teilen möchte, eine Pro Lizenz. Erst ab den hochpreisigen Premium Lizenzen wird es möglich, Berichte auch mit Personen zu teilen, die keine Power BI Pro Lizenz besitzen.
Google Data Studio ist hingegen komplett kostenlos verfügbar. Hier gibt es kein Lizenz-Modell und Berichte können daher einfacher mit anderen Google-Nutzern geteilt werden.
Zusammenfassung
Jedes der beiden Tools hat seine Stärken und Schwächen. Power BI ist gut im Verknüpfen großer, komplexer Datenmodelle. Für Anwender, die häufig mit Office-Produkten wie zum Beispiel Excel arbeiten, werden sich viele Funktionen sehr vertraut anfühlen. Um hier den kompletten Mehrwert auszuschöpfen, ist zumeist aber eine größere Infrastruktur nötig. Google Data Studio hingegen sticht aufgrund des einfachen Teilens von Berichten sowie der kostenfreien Nutzung hervor. Gerade, wenn es um andere Produkte von Google geht, lassen sich hier schnell und einfach Erkenntnisse gewinnen. Möchte man jedoch komplexere Fragestellungen beantworten, kann es sein, dass man mit diesem Tool schnell an die Grenzen des Möglichen gelangt.