Große Daten

mitp-Verlag

Big Data: Datenanalyse und Datenaufbereitung mit mVISE

Unternehmen generieren täglich Massen an Daten, aus denen viele wichtige Schlüsse über Markt und Kunden gezogen werden können. Um das Potenzial hinter diesen Unternehmensdaten voll auszuschöpfen, setzen Organisationen auf Datenanalyse, Aufbereitung und Visualisierung von ungenutzten Daten. Diese Praxis fällt unter den Begriff Big Data Engineering und spiegelt sich auch im Firmengrundsatz der mVISE – „Aus Daten Mehrwerte schaffen“ – wider. Das Thema Big Data, unter dem die mVISE nicht nur die Verarbeitung großer Datenmengen versteht, sondern auch die Anwendung dafür geeigneter Technologien. Hierdurch sind nicht nur neuartige Architekturen möglich, bestehende DWH-Systeme können damit auch sinnvoll ergänzt werden.

Big Data Management: Datenanalyse und Aufbereitung

Die mVISE AG unterstützt ihre Kunden dabei, geeignete Prozesse und Systeme in ihren Workflow zu integrieren, um daraus wertvolle Informationen zur besseren operativen und strategischen Entscheidungsfindung abzuleiten. Für die Messung des Erfolgs und für optimale Entscheidungen in den Prozessen bis hin zu Entscheidungsautomatisierungen schaffen unsere Experten leistungsfähige und agile Business Intelligence Systeme und Services. Dabei arbeiten unsere Teams mit gängigen Big Data-Frameworks und Technologien wie Hadoop, Hive oder Apache Sqoop.

Geschäftsmodelle KI-fähig zu machen und darauf basierend benutzerdefinierte, skalierbare IT-Infrastrukturen zu entwickeln ist der Anspruch der mVISE als einer der führenden IT-Dienstleister. Unsere Expertenteams verfügen sowohl über langjährige Expertise im Bereich der analytischen Datenarchitekturen und Datenintegration als auch über die richtigen Technologieplattformen für unsere Kunden. Damit gewährleistet die mVISE AG ein umfassendes und benutzerorientiertes Angebot, welches Firmen hilft Kosten zu senken, Prozesse zu optimieren und Ihre Geschäftsrisiken zuverlässig zu kontrollieren..

Big Data oder: Viel hilft viel?!

Oberstes Ziel bei der Entwicklung von Online-Übersetzungsprogrammen ist die Entwicklung einer Art „Babelfischs“, wie ihn Douglas Adams in seinem Ende der 70er erschienen Buch „Per Anhalter durch die Galaxis“ beschrieb. Ins Ohr eingesetzt leistet dieser in der Science-Fiction-Geschichte gute Dienste und übersetzt für seinen Nutzer simultan alle erdenklichen Sprachen. Eine Vorstellung, die für uns heute tatsächlich nur noch wenig mit „Fiction“, aber umso mehr mit „Science“ zu tun hat. Aber warum ist „Big Data“ wichtig, wenn man gerne einen einzelnen japanischen Fachtext ins Spanische übersetzen lassen möchte?

Wissenschaftler von IBM beschäftigten sich in den 50er Jahren damit, maschinelle Übersetzungen zu entwickeln. 1954 gelang es dann, 250 Wörter und sechs Grammatikregeln vom Russischen ins Englische zu übersetzen. Ende der 80er Jahre erzielten die Ingenieure von IBM mit einem neuen Ansatz einen weiteren Erfolg. Der Computer sollte jetzt selbst, d.h. anhand von fertigen (und korrekten) Übersetzungen lernen, wie ein Satz übersetzt werden kann. Die Computer wurden mit vorliegenden Textdokumenten in zwei Sprachen gefüttert, um zu lernen, mit welcher Wahrscheinlichkeit Begriffe auf eine bestimmte Art übersetzt werden und für einen entsprechenden Satzbau genutzt werden können. Der Start der statistischen maschinellen Übersetzung.

Doch je nach Sprache unterscheiden sich Semantik und Grammatik erheblich voneinander. Die Lösung sind künstliche Neuronale Netze (KNN), mit denen nicht mehr einzelne Wörter, sondern ganze Phrasen, Sätze und Abschnitte kontextabhängig übersetzt werden können. Dabei werden Wörter als hochdimensionale Vektoren verstanden, wobei kontextähnliche Wörter im Vektorraum näher beieinander liegen als solche, die sich unterscheiden. Google Translate ging mit einem solchen Ansatz 2006 ins Rennen. Basierend auf Milliarden von Wörtern aus unterschiedlichen Sprachen und Kontexten geht es nun nicht mehr um das semantische Verstehen der Textinhalte, sondern um die Berechnung blanker Wahrscheinlichkeiten.

Auch die Entwicklung von Online-Kartendiensten ist „Big Data“ zu verdanken. Die Möglichkeit Echtzeit-Verkehrsinformationen wie Stau- und Unfallmeldungen abrufen zu können basiert auf Crowdsourcing: Andere Nutzer, die am Verkehrsgeschehen teilnehmen, produzieren Standortinformationen, welche live verarbeitet werden. So wird stockender Verkehr und Stau direkt registriert und an alle Nutzer weitergegeben. Dies wäre ohne eben jene Datenmengen nicht möglich, denn wie soll sonst unterschieden werden, ob ein Autofahrer ggf. einfach nur eine Pause macht oder ob es sich tatsächlich um Stau handelt?

Daneben wird „Big Data“ auch zur Verbrechensbekämpfung eingesetzt. Im 2002 erschienenen Film „Minority Report“ wurde das Thema Predictive Policing bereits zuschauertauglich aufbereitet. Im Film werden Menschen verhaftet, die ein Verbrechen geplant, aber noch nicht umgesetzt haben. Von Hollywood nach Hessen: In Hessen wird die Software der Firma Palantir eingesetzt, um geplante Verbrechen tatsächlich rechtzeitig aufdecken und verhindern zu können. Mit Hilfe großer Datenmengen, statistischer Auswertungen und Profiling-Algorithmen werden verdächtige Personen oder Gegenden identifiziert. Auch in den USA, Großbritannien und Teilen Italiens wird diese neue Form der Polizeiarbeit eingesetzt, um Polizeistreifen gezielt einsetzen zu können.

Für Unternehmen ergeben sich ebenso Chancen durch „Big Data“ im beruflichen Kontext. Basierend auf vielen unterschiedlichen Daten können beispielsweise Prognosen über zukünftige Absatzentwicklungen oder künftiges Kaufverhalten berechnet werden. Detailliertes Wissen über Kunden, und zwar nicht nur das Kaufverhalten betreffend, kann bei der Entwicklung und dem Vertrieb kundenindividueller Produkte genutzt werden. Die gleichzeitige Auswertung von Produkt- und Produktionsdaten gepaart mit regionalen Informationen über Standorte und deren Demographie ermöglichen datenbasierte Entscheidungen über Standorteröffnungen und Routen. Auch im Bereich des nicht-produzierenden Gewerbe, beispielsweise in Kliniken und Krankenhäusern, wird „Big Data“ genutzt. So besteht die Möglichkeit durch den Einsatz von „Big Data“ Krankheiten, deren Verlauf und Verbreitung vorherzusagen.

Erfolgreich mit „Small Data“?

So wertvoll große Datenmengen auch sind, so schwierig ist deren Erhebung sowie die zielgerichtete und nutzenstiftende Analyse dieser. Fast jedes zweite Unternehmen in Deutschland, Österreich und der Schweiz hat hier Probleme. Laut der „Business Intelligence & Analytics-Studie biMa“ 2017/2018, durchgeführt von Sopra Steria Consulting und BARC, wurden mehr als 300 Unternehmen unterschiedlicher Branchen und Größen zum Thema „Big Data“ befragt. Mehr als ein Viertel aller befragten Unternehmen gab dabei Probleme im Rahmen der Erhebung und Integration von Daten aus unterschiedlichen Quellen an. Weiterhin fehlt in Unternehmen das fachliche Verständnis für die Analyse eben jener großen Datenmengen, und die Beauftragung externen Beratungsfirmen oder Experten ist nicht selten mit enormen Zeit- und Kostenaufwänden verbunden. Zusätzlich wird die Analyse der Daten durch bestehende Datenschutzrichtlinien innerhalb und außerhalb des Unternehmens erschwert.

Immer mehr Unternehmen setzen daher nicht mehr nur auf „Big Data“, sondern bevorzugen für die Analyse „Small Data“. Denn es kommt nicht immer nur auf die Menge an, sondern vor allem auf die Relevanz der Daten. Man kann also durchaus auch mit „Small Data“ Erfolge erzielen, und manchmal sogar wertvollere Insights gewinnen, als über die bloße Masse. Ein gutes Beispiel hierfür ist die Analyse von Kundenfeedback. Unternehmen analysieren Kundenfeedback i.S.v. Textdaten um beispielsweise herauszufinden, welche Probleme der Kunde im Feld beschreibt, oder was dem Kunden an einem Produkt gefällt, oder eben nicht. Dabei sind die Themen, über die die Merheit der Kunden spricht, natürlich wichtig, aber i.d.R. nicht wirklich eine Überraschung für Unternehmen. Richtig intertessant wird es eigentlich, wenn es gelingt die Themen zu identifizieren, über die nur zwei, drei Kunden sprechen. Gute Ideen entstehen nie in 1.000 Köpfen gleichzeitig, sondern eher in einem. Um einen Wettbewerbs-vorsprung zu erzielen und innovative Produkte zu entwickeln ist es also umso wichtiger, sich auch mal auf „Small Data“ einzulassen.

mitp-Verlag

Entwicklung und Programmierung von Systemen für große Datenmengen und Einsatz der Lambda-Architektur

Einführung in Big-Data-Systeme und -Technologien

Große Datenmengen speichern und verarbeiten

Einsatz zahlreicher Tools wie Hadoop, Apache Cassandra, Apache Storm uvm.

Daten müssen mittlerweile von den meisten Unternehmen in irgendeiner Form verarbeitet werden. Dabei können sehr schnell so große Datenmengen entstehen, dass herkömmliche Datenbanksysteme nicht mehr ausreichen. Big-Data-Systeme erfordern Architekturen, die in der Lage sind, Datenmengen nahezu beliebigen Umfangs zu speichern und zu verarbeiten. Dies bringt grundlegende Anforderungen mit sich, mit denen viele Entwickler noch nicht vertraut sind.

Die Autoren erläutern die Einrichtung solcher Datenhaltungssysteme anhand eines speziell für große Datenmengen ausgelegten Frameworks: der Lambda-Architektur. Hierbei handelt es sich um einen skalierbaren, leicht verständlichen Ansatz, der auch von kleinen Teams implementiert und langfristig betrieben werden kann.

Die Grundlagen von Big-Data-Systemen werden anhand eines realistischen Beispiels praktisch umgesetzt. In diesem Kontext lernen Sie neben einem allgemeinen Framework zur Verarbeitung großer Datenmengen auch Technologien wie Hadoop, Storm und NoSQL-Datenbanken kennen.

Dieses Buch setzt keinerlei Vorkenntnisse über Tools zur Datenanalyse oder NoSQL voraus, grundlegende Erfahrungen im Umgang mit herkömmlichen Datenbanken sind aber durchaus hilfreich.

Big-Data-Systeme und -Technologien

Echtzeitverarbeitung sehr großer Datenmengen

Lambda-Architektur

Batch-Layer: Datenmodell, Datenspeicherung, Skalierbarkeit

Stapelverarbeitungsprozesse

Modellierung von Stammdatensätzen

Implementierung eines Graphenschemas mit Apache Thrift

Einsatz von MapReduce

JCascalog zur Implementierung von Pipe-Diagrammen

Serving-Layer: Konzepte und Einsatz von ElephantDB

Speed-Layer: Berechnung und Speicherung von Echtzeit-Views

Einsatz von Hadoop, Apache Cassandra, Apache Kafka und Apache Storm

Streamverarbeitung mit Trident

Über den Autor:

Nathan Marz ist der Erfinder von Apache Storm und der Lambda-Architektur für Big-Data-Systeme. James Warren befasst sich mit Datenanalysen und kennt sich bestens mit algorithmischem Lernen und wissenschaftlichem Rechnen aus.