Die Datenbereinigung ist ein häufiges Problem in der Computerindustrie. Gibt es eine gute Möglichkeit, die Effizienz zu verbessern? Welche Methoden zur Datenbereinigung gibt es? Bei der Datenbereinigung werden doppelte und redundante Daten entfernt. Und es kann die fehlenden Daten ergänzen. Ebenso wie das Korrigieren oder Löschen falscher Daten. Schließlich werden es die Daten, die wir weiterverarbeiten und nutzen können.
Die allgemeinen Schritte der Datenbereinigung: Datenanalyse, Verarbeitung fehlender Werte, Verarbeitung anormaler Werte, Deduplizierungsverarbeitung, Rauschdatenverarbeitung. Im Big-Data-Ökosystem gibt es viele Daten-ETL-Tools aus vielen Quellen. Aber für das interne Unternehmen müssen Stabilität, Sicherheit und Kosten berücksichtigt werden.
Die folgenden Methoden werden häufig verwendet, um mit fehlenden Datenwerten umzugehen:
1. Löschen Sie den fehlenden Wert. Bei einer großen Anzahl ist der Anteil der Stichproben mit fehlenden Werten relativ klein. In diesem Fall. Und der einfachste und effizienteste Weg, mit fehlenden Werten umzugehen, kann verwendet werden. Das heißt, die Proben mit fehlenden Werten zu verwerfen. Dies ist eine sehr gängige Strategie.
2. Mittlere Füllmethode. Das Attribut mit dem höchsten Korrelationskoeffizienten basierend auf dem fehlenden Wert. Dann teilen Sie die Daten in Gruppen auf. Und berechnen Sie den Mittelwert jeder Gruppe. Setzen Sie diese Durchschnittswerte schließlich in die fehlenden Werte ein.
3. Hotcard-Füllmethode. Für eine Variable mit fehlenden Werten führt die Hotcard-Füllmethode dies aus. Suchen Sie in der Datenbank ein Objekt, das ihm am ähnlichsten ist. Füllen Sie es dann mit dem Wert des ähnlichen Objekts. Unterschiedliche Probleme können unterschiedliche Standards wählen, um die Ähnlichkeit zu beurteilen. Die gebräuchlichste Methode ist die Verwendung der Korrelationskoeffizientenmatrix zur Bestimmung der Variablen. Variable y ist am relevantesten für die Variable x. Dann werden alle Variablen nach dem Wert von Y sortiert. Dann kann der fehlende Wert der Variablen x durch den fehlenden Wert ersetzt werden.
Es gibt auch ähnlich wie bei der nächsten Entfernungsbestimmung Füllverfahren, Regressionsfüllverfahren und Mehrfachfüllverfahren. Und k-nächste Nachbarmethode, geordnete nächste Nachbarmethode, Bayessche Methode und so weiter.
Ausreißer werden oft als Ausreißer bezeichnet. Zur Verarbeitung von Ausreißern werden üblicherweise folgende Methoden verwendet: 1. Einfache statistische Analyse. 2. 3 ∂-Prinzip. 3. Boxdiagrammanalyse. 4. Basierend auf der Modellprüfung. 5. Basierend auf der Entfernung. 6. Basierend auf der Dichte. 7. Basierend auf Clustering.
Rauschen ist der zufällige Fehler oder die Varianz der gemessenen Variablen. Für die Rauschbehandlung gibt es normalerweise die folgenden zwei Methoden: 1, Box-Methode. 2. Regressionsmethode.
Das Obige ist eine kurze Einführung in die Datenbereinigungsmethode. Hoffe, den Lesern hilfreich zu sein.