Große Daten

Mess- und Felddaten effizient analysieren: Big Data in der Auto-Entwicklung

Data Science

Data Science (deutsch: Datenwissenschaft) ist ein Sammelbegriff für Systeme, Algorithmen, Methoden und Prozesse, mit denen Wissen aus vorhandenen Daten extrahiert wird. Basis hierfür sind wiederum Theorien und Techniken aus den Bereichen IT, Mathematik, Wahrscheinlichkeitsrechnung und Statistik.

Historische Entwicklung

Data Science ist keine Entwicklung der jüngsten Vergangenheit. Vielmehr nahm die Datenanalyse mithilfe computergestützter Verfahren bereits in den 1960er Jahren ihren Anfang. Die Anwendung begrenzte sich jedoch lange auf den wissenschaftlichen Bereich. Erst mit der flächendeckenden Verbreitung der IT in den 1990er Jahren hielt Data Science Einzug in Unternehmen. Insbesondere wurden Daten seinerzeit für die Ableitung von Marketingmaßnahmen und Unternehmensstrategien herangezogen.

Trotz der neuen Möglichkeiten fristete Data Science eher ein Schattendasein, bis in den 2010er Jahren die Thematik “Big Data” Popularität erlangte. Diese großen Mengen unstrukturierter Daten entstanden durch die weltweit voranschreitende Digitalisierung. Bis heute nimmt das Datenvolumen tagtäglich zu.

Webinar: Künstliche Intelligenz – Grundlagen und Best Practices Sie möchten gerne mehr zum Thema Künstliche Intelligenz erfahren und wie Ihr Unternehmen davon profitieren kann? In unserem Webinar fassen wir Ihnen die wichtigsten Aspekte zusammen!

Gleichzeitig verbesserten sich die Rechenleistung, analytische Datenbanken und Analyse-Tools signifikant. Hierdurch ist es mittlerweile möglich, große Mengen von Daten aus unterschiedlichen Quellen zu sammeln, aufzubereiten und zu analysieren. Zunehmend etablieren sich kostengünstige Cloud-Lösungen für diese Aufgaben. Neben Forschungseinrichtungen und großen Konzernen sind aufgrund der Entwicklung mittlerweile auch kleine und mittelständische Unternehmen in der Lage, Data Science zu betreiben.

Einsatzzweck

Data Science unterscheidet sich hinsichtlich seiner Ziele klar von herkömmlichen IT-Aufgaben. Datenanalyseprojekte bewegen sich stets an der Schnittstelle zwischen verschiedensten Unternehmensdaten und unternehmerischen Fragestellungen. Letztere können sich sowohl auf konkrete Ereignisse in der Vergangenheit als auch auf potenzielle Trends und Szenarien der Zukunft beziehen. Hierbei ermöglicht Data Science Einblicke, die mit herkömmlichen Analysemethoden bislang nicht realisierbar waren. Die Perspektive von Unternehmen erweitert sich, was zahlreiche Vorteile im Wettbewerb mit sich bringt.

Die übergeordneten Ziele von Data Science können aus betriebswirtschaftlicher Sicht wie folgt zusammengefasst werden:

Schaffung einer soliden Basis für Unternehmensentscheidungen

Realisierung von Wettbewerbsvorteilen

Steuerung, Optimierung und Automatisierung von Prozessen

Erstellung belastbarer Prognosen über zukünftige Entwicklungen (“Predictive Analytics”)

Technologische und personelle Anforderungen

Data-Science-Projekte sind mit mehreren technologischen und fachlichen (personellen) Anforderungen verbunden. Neben Technologie-Know-how sind BWL- und Branchenkenntnisse erforderlich, um relevante Fragestellungen zu entwickeln. Dies ist auch einer der Hauptgründe dafür, warum Data Scientists (Berufsbild: siehe nächster Abschnitt) auf dem Arbeitsmarkt kaum verfügbar und äußerst begehrt sind.

Die technologischen Voraussetzungen orientieren sich an den oftmals extrem großen Datenmengen, die in Data-Science-Projekten – teils sogar in Echtzeit – gespeichert und verarbeitet werden müssen. Hierfür sind leistungsfähige Rechenzentren und zahlreiche parallel arbeitende Prozessoren erforderlich. Viele Organisationen lagern diesen Bereich mittlerweile in die Cloud aus, um die notwendigen Ressourcen nicht selbst vorhalten zu müssen.

Berufsbild Data Scientist

Data Science ist ein Wissenschaftsfeld, das sich aus Informationstechnologie, Mathematik, Wahrscheinlichkeitsrechnung und Statistik zusammensetzt. Daher können Data Scientists (“Datenwissenschaftler”) Mathematiker, Informatiker, Physiker und auch Wirtschaftswissenschaftler mit entsprechender Fortbildung sein. Mittlerweile existieren jedoch auch Bachelor- und Master-Studiengänge für Data Science, in denen die zuvor genannten Wissensgebiete kombiniert werden. Hinzu kommen außerdem Methoden aus der künstlichen Intelligenz (insbesondere Machine Learning) und der Prognostik.

In ihrer täglichen Arbeit befassen sich Data Scientists vorwiegend mit folgenden Aspekten:

Datenerhebung (Data Sourcing)

Datenbereinigung (Data Cleansing)

Datenaufbereitung

Datenanalyse

Hierbei wenden Sie verschiedenen Methoden der Datenmodellierung, unterschiedliche mathematische Modelle sowie bestimmte statistische Verfahren an. Ihr Ziel ist es stets, die vorhandenen Daten in unternehmerisch verwertbares Wissen umzuwandeln. Daher müssen Data Scientists auch in der Lage sein, die gewonnenen Erkenntnisse leicht verständlich aufzubereiten, zu erklären und Handlungsempfehlungen abzuleiten. Treten Auffälligkeiten in den Daten auf, müssen sie darüber hinaus eigenständig die passenden Fragestellungen formulieren. Hierfür werden Branchenkenntnisse und betriebswirtschaftliches Wissen benötigt. Zudem sind gute kommunikative Eigenschaften erforderlich, um Projekte erfolgreich durchzuführen.

Websession: Data Science Sie haben Fragen zum Thema Prozessoptimierung? Vereinbaren Sie eine kostenlose Websession mit uns. Ich freue mich auf Ihre Fragen.

Websession zum Thema: Data Science × Bitte hinterlassen Sie uns Ihren Namen und die Kontaktdaten. Dann melden wir uns bei Ihnen.

Einsatzmöglichkeiten in der Praxis

Data Science bietet zahlreiche Anwendungsmöglichkeiten. Die Methoden spielen immer dann eine Rolle, wenn Unternehmen aus großen Datenmengen lernen möchten – beispielsweise um Prozesse zu optimieren und die Kundenorientierung zu steigern. Die Bandbreite reicht hier von der Routenoptimierung in der Logistik bis hin zur Minimierung von Retouren im Versandhandel. Die Energiebranche nutzt Data-Science-Methoden hingegen, um Spitzen in der Auslastung von Stromnetzen vorherzusagen und Kapazitäten rechtzeitig anzupassen. Doch auch Versicherungen setzen mittlerweile auf fortgeschrittene datenbasierte Prognosen, um etwa die Wahrscheinlichkeit eines Schadensereignisses zu bestimmen.

Weitere Einsatzgebiete sind:

E-Commerce: Optimierung der Suchfunktion (relevanteste Ergebnisse anzeigen), dynamische Anpassung von Preisen in Echtzeit

Online-Marketing: personalisierte und situativ passende Werbung

Empfehlungsdienste (Recommendation Engines)

Medizin: automatisierte Therapie- und Medikationsempfehlung auf Basis ähnlicher Fälle

Predictive Analytics: unter anderem Prognosen zu Marktveränderungen, Konsumverhalten und Maschinenausfällen

Knowhow herunterladen ×

Praktikum Big-Data-Analytics in der Entwicklung

Cookie Einwilligung

Für die Grundfunktionen dieser Webseite werden technisch notwendige Cookies gesetzt (Kategorie „erforderlich“).

Weiterhin gibt es Cookies für statistische Zwecke (Kategorie „Statistik“) und Marketing Cookies (Kategorie „Marketing“). Bei der Kategorie Statistik werden statistische Informationen über Ihren Besuch erfasst, bei der Kategorie Marketing darüber hinaus Informationen, um Ihnen personalisierte Angebote anbieten zu können. Statistik und Marketing Cookies werden nur mit Ihrer Einwilligung eingesetzt. Eine Auswahl können Sie über den oben angezeigten Schieberegler treffen oder direkt alle Cookie Kategorien akzeptieren, indem Sie auf „alle Cookies akzeptieren“ klicken. Informationen zu den einzelnen Cookies (insbesondere zu Laufzeit und ob Dritte darauf Zugriff haben) sowie der Zuordnung zu den Kategorien können Sie unseren Cookie Informationen entnehmen. Hier können Sie Ihre Cookie-Einstellungen auch jederzeit ändern.

Mess- und Felddaten effizient analysieren: Big Data in der Auto-Entwicklung

Smart Factories, Smart Cities, Digital Healthcare, künstliche Intelligenz (KI) und Machine Learning (ML) - die Zahl der Daten, die wir täglich generieren explodiert förmlich. Und damit stehen zahlreiche Branchen vor einer Herausforderung, mit der sich die Automobilindustrie schon länger konfrontiert sieht: Wie lassen sich solche Datenmengen noch effizient und zuverlässig weiterverarbeiten?

Die Herausforderung in der Autoindustrie beginnt bei der Entwicklung und Erprobung neuer Fahrzeuge. So liefert ein einziger Erlkönig heute pro Stunde bis zu drei Terabyte an Daten. Wer mehrere Fahrzeuge parallel einsetzt, muss demnach täglich Daten im mehrstelligen Petabyte-Bereich verarbeiten. Zukünftig werden auch vernetzte sowie autonom fahrende Autos das Datenvolumen enorm ansteigen lassen.

Was Mess- und Kontrolleinheiten in Testfahrzeugen oder Sensoren, Steuergeräte und Aktoren an Big Data erzeugen, müssen Autohersteller möglichst zeitnah auswerten, Denn die Analyseergebnisse fließen in die Weiterentwicklung der Fahrzeuge ein. Zudem werden Millionen von Testkilometern nicht nur physisch, sondern vermehrt auch virtuell gefahren. Auch dazu bieten Daten eine wichtige Grundlage.

Die Automobilindustrie steht also vor der Herausforderung, große Datenmengen während des Product Lifecycles zusammenführen und in möglichst kürzester Zeit analysieren zu müssen. Während der Fahrt erfasst ein "Logger" auf Festspeichern (Solid State Disks) die Daten. Am Ende des Arbeitstags werden sie ausgelesen und in die Auswertungssoftware eingespeist. Die Analyseergebnisse sollen bereits nach wenigen Stunden vorliegen, um vor der nächsten Testfahrt kritische Fehler zu beheben und nächste Tests vorzubereiten.

Auf diese Weise lassen sich Entwicklungsprozesse verkürzen und Kosten senken. Jedoch sind klassische Datenverbindungen nicht darauf ausgelegt, die riesigen Datenmengen aus global verstreuten Testgebieten schnell zusammenzufügen. Klassische Analysearchitekturen und Übertragungstechniken kommen aufgrund des Datenvolumens an ihre Belastungsgrenze.

Daten clever analysieren

Die heute üblichen Bandbreiten, die insbesondere bei Fahrzeugtests global zur Verfügung stehen, reichen für den schnellen Datendurchsatz nicht aus - egal ob 4G-Mobilfunknetzte, WLAN, VPN oder Ethernet. Stattdessen sollten Automobilhersteller Daten möglichst nah am Entstehungsort vorverarbeiten und nur die Ergebnisse zentral zusammenführen und auszuwerten.

Es wird also immer wichtiger, große Datenmengen in der Nähe eines Testbeds oder direkt auf dem Fahrzeug sofort analysieren zu können. Aufgrund der schieren Menge an Testdaten und des zunehmenden Bedarfs an virtuellen und physischen Tests, wird das Co-Design von Workloads und der zugrunde liegenden Plattform sowie die Wahl einer geeigneten Topologie zu einem Muss.

Nur durch geschickte Wahl und Platzierung von Infrastruktur und Algorithmen lässt sich der Aufwand für die Analyse von Big Data erheblich reduzieren. Dafür bieten sich drei ergänzende Ansätze an: die Datenlokalität (code to data), die hochskalierbare und parallele Verarbeitung der Daten (parallel code) und die Abstimmung der Hardware auf die Software (co-design).

Durch das Code-to-Data-Prinzip müssen keine Daten zu den Algorithmen gebracht werden. Stattdessen gilt es, Analyse-Code, der ein weitaus geringeres Volumen hat, zu den Daten zu senden und direkt an ihrem Entstehungsort auszuführen. Dadurch wird eine Parallelisierung der Datenauswertung in den einzelnen Fahrzeugen ermöglicht und der Haupt-Thread für die weitere Verarbeitung freigegeben. Nur die Ergebnisse der lokalen Auswertung werden über die üblichen Verbindungen zur zentralen Analyse geschickt. Dies beschleunigt den gesamten Analysevorgang um ein Vielfaches und senkt die Kosten.

Kommunikation ist immer teuer und zeitintensiv, da sie sich nicht verdichten lässt. Wird aber die Datenübertragung reduziert, senkt sich auch der Energieverbrauch, was weniger Kosten bedeutet. Das ist ein entscheidender Vorteil.