Tool-Tipp: Mockaroo
Heute gibt es mal wieder einen Tool-Tipp von mir. Es handelt sich dabei um den den Internet-Dienst Mockaroo, mit dem Du sehr einfach realistisch Test-Daten generieren kannst.
Das ist vor allem dann interessant, wenn Du täglich viel mit Daten arbeiten musst – wie zum Beispiel ich. Nicht immer kannst du mit realistischen, sogenannten „Echt-Daten“ arbeiten. Dann musst Du kreativ werden und Dir eigene Beispieldaten beschaffen. Aber was, wenn es auch keine freizugänglichen Beispieldaten gibt? Dann nutze einfach Mockaroo und generiere Dir Deine eigenen. 😉
Inhalt
Was ist Mockaroo?
Mockaroo ist ein Webdienst, den Du also ganz einfach über Deinen Browser aufrufen kannst. Dieser Dienst erlaubt es Dir über eine sehr übersichtliche und einfache Oberfläche Daten-Schemata zu erstellen und diese dann mit generierten Testdaten zu füllen. Die Möglichkeiten innerhalb von Mockaroo sind unglaublich weitreichend, so dass Du am Ende tatsächlich Daten generieren kannst, die den Echt-Daten sehr ähnlich sind.
Wie funktioniert Mockaroo?
Auf der Homepage von Mockaroo findest Du ein Menü, welches dir erlaubt eigene Schemata anzulegen, Deine gespeicherten Datensätze zu öffnen, Web-Schnittstellen zu erstellen, Szenarien zu gestalten oder ganze Projekte zu verwalten.
Um Deine Daten zu generieren solltest Du zu allererst ein Schema definieren. Jedes Feld Deines Schemas besteht aus dem Namen, dem Typen und weiteren Optionen. Dabei werden Standard-Datentypen wie Zahlen, Zeichenketten, etc. unterstützt. Aber es werden auch spezielle Datentypen für z. B. Gesundheitsdaten oder Kryptowährungen unterstützt. Außerdem gibt es weitere Konfigurationsmöglichkeiten, wie zum Beispiel die Möglichkeit den Anteil von leeren Werten pro Spalte zu definieren, usw.
Am unteren Bildschirmrand hast Du die Möglichkeit Deine Daten herunterzuladen, Dir eine Vorschau anzusehen, das Schema zu speichern und noch weitere, erweiterte Optionen, wie zum Beispiel das Klonen eines Schemas oder den Import aus Excel/CSV oder JSON. Es besteht sogar die Möglichkeit Deine Daten als MQTT Endpunkt zur Verfügung zu stellen.
Mit einem Klick auf Preview kannst Du Dir Deine Daten schonmal anschauen, bevor Du diese herunterlädst. In meinem Beispiel handelt es sich um ein sehr einfaches Schema. Das tolle daran ist, dass Mockaroo ganz automatisch eine gewisse semantische Abhängigkeit in den Spalten sicherstellt. Klassische weibliche Vornamen zum Beispiel haben automatisch meist „female“ beim Geschlecht eingetragen. Ähnlich verhält es sich bei Adressdaten, so dass kein Blödsinn wie z. B. Ländercode „DEU“ aber Land „Italy“ dabei herauskommt.
Mit einem Klick auf „Add another Field“ kannst Du Deinem Schema ein neues Feld hinzufügen. Insgesamt bietet Mockaroo 157 unterschiedliche Typen, von Tiernamen über Automarken, Farben bis hin zu Zeitzonen.
Was sonst noch?
Erweiterte Möglichkeiten
Solltest Du Datentypen generieren wollen, die Mockaroo nicht unterstützt, kannst Du eigene Typen mit der Hilfe von RegEx erstellen. Damit kannst Du Dein Schema im Grunde nach belieben erweitern und neue Muster definieren.
Klassischerweise reicht es aus, Deine Daten einfach herunterzuladen, aber Mockaroo geht sogar noch weiter und bietet Dir an, Deine generierten Testdaten auch als API (Web-Schnittstelle) zur Verfügung zu stellen. Damit erhältst Du einen REST-Endpunkt, mit dem Du Dich programatisch verbinden kannst und Deine Testdaten abrufen kannst.
In jeder Spalte Deines Schemas hast Du die Möglichkeit auch eine Formel hinzuzufügen. Dafür einfach auf das „∑“ klicken. Es öffnet sich ein Formeleditor, welcher die Programmiersprache Rubi unterstützt. Ein ganz einfaches Beispiel ist
lower("XYZ")
welches Deinen Text komplett in Kleinbuchstaben ausgibt.
Du kannst aber auch auf andere Felder zugreifen. Wenn du z. B. bereits ein Feld mit einem Datum hast und dazu den Wochentag benötigst, kannst du einfach
day(my_date_field)
schreiben und erhältst den Wochentag als Zahl zurück.
Aber nicht nur Formeln sind möglich, sondern auch
- Eigene Listen – Eine Liste mit Deinen hinterlegten Werten.
- Dataset Column – Erlaubt Dir die Verknüpfung zu einem anderen Datensatz, welcher bereits in Mockaroo hochgeladen wurde.
- Distributions – Fünf verschiedene Verteilungsarten, um eine glaubwürdigere Verteilung von numerischen Werten zu erzielen.
Hilfe
Tutorials
Auf der YouTube-Seite von Mockaroo findest Du einige Tutorials, die Dir bei der Einarbeitung helfen können.
Forum
Auch eine eigene Community hat sich zwischenzeitlich gebildet. Die User dort sind aktiv und helfen gerne bei Problemen und Fragen.
FAQ
Häufig gestellte Fragen – und vor allem deren Antworten – findest Du in der eigenen FAQ auf der Homepage.
Wieviel kostet Mockaroo?
Mockaroo gibt es in vier verschiedenen Versionen. Mit dem FREE Plan kannst Du so viele Dateien erstellen, wie Du möchtest, jedoch können diese „nur“ 1.000 Zeilen beinhalten. Außerdem gibt es eine Limitierung auf 200 Anfragen gegen die API pro Tag.
Im SILVER Plan können Deine Dateien 100.000 Zeilen beinhalten und Du kannst 1 Million Datensätze pro Tag über die API abrufen. Dieser Plan kostet Dich 60$ im Jahr und ist für „normale“ Anwender (wie mich z. B.) absolut ausreichend.
Für den professionellen Einsatz gibt es noch den GOLD und ENTERPRISE Plan für 500$ oder 7500$ pro Jahr.
Alternativen und „fertige“ Datensätze
Falls Du Deine Daten nicht selbst generieren, sondern auf bereits bestehende Datensätze zurückgreifen möchtest, kann ich Dir folgende Dienste ans Herz legen:
- Kaggle
- Google Dataset Search
- Open Data Inception
- Google Cloud Platform Marketplace
- Registry of Open Data on AWS
Fazit
Mockaroo erlaubt es Dir auf sehr einfache Art und Weise realistische Testdaten zu generieren. Das ist natürlich vor allem für diejenigen Interessant, die regelmäßig mit Daten arbeiten, wie z. B. Daten-Analysten, Data Scientisten oder Data Engineers.