Was bei der Arbeit mit den großen Datenmengen aus dem Netz immer wieder verblüfft – abgesehen von der schieren Masse an Daten – ist der Haufen von Abfall, den sie produziert. Wenn ich mit einem TerraByte an Daten arbeite, dann erwarte ich daraus ‚Nutzdaten‘ von weniger als einem GigaByte. Das ist weniger als ein Promille mit 999 Promille an Abfall.

Die Kehrseite der Medaille ist, dass meine Kollegen in der Datenanalyse den allergrößten Teil des Tages mit Säuberungsaktionen verbringen. Wer Jahre in seine Ausbildung investiert hat, um intelligente Algorithmen zum Einsatz zu bringen, stellt fest, dass er jetzt in seinem beruflichen Alltag vor allem Müll wegräumt. Denn Algorithmen sind sehr empfindliche Wesen. Sie dürfen nur mit ausgewählten Materialien gefüttert werden, sonst verschlucken sie sich oder verstopfen.

Mülltrennung in Big Data ist also vor allem Handarbeit. Aber wie weit kann das gehen? Immer mehr Datenquellen lassen sich erschließen. Aber die Erschließungsarbeit selbst ähnelt der in einem Bergwerk. Man muss erstmal an den edlen Stoff rankommen, den man den Algorithmen vorsetzen kann.

Wenn niemand ein Verfahren zur Mülltrennung in Big Data erfindet, dann kommt Big Data schon bald an ein natürliches Ende. Denn so viele Müllmänner können die Universitäten gar nicht ausbilden, wie für den Handbetrieb der Mülltrennung gebraucht würden.

Big Data zu Smart Data mit CX