Big Data ist nicht nur ein Synonym für große bis riesige Datenmengen. Man muss mit diesen Daten auch etwas tun, einen Nutzen generieren können. Dafür benötigt man Technologien wie statistische Modelle, analytische Methoden oder künstliche Intelligenz.

Ich möchte in diesem Beitrag keine fachliche Abhandlung über die technische Funktionsweise der Technologien geben. Dafür gibt es Fachexperten, die geeigneter sind. Mir geht es eher um die Überlegungen, welche Technologien zu einem Geschäftsmodell passen und an eine bestehende Infrastruktur passen (oder nicht).

Überblick

Das Beitragsbild zu diesem Eintrag zeigt schon, dass es eine große Vielfalt an Tools und Technologien gibt – in Wahrheit sind es noch viel mehr. Eine kurze Übersicht über die allgemeinen bekanntesten Big Data Technologien zeigt die folgende Tabelle.

[table “2” not found /]

Lauscht man einer Diskussionüber Big Data, dann hört man zumeist Inhalte und Argumente über Technologien, die man benötigt um mit unstrukturierten großen Datenmengen umgehen zu können. Die Technologie steht also vorrangig im Interesse der Auseinandersetzungen. Wie ich aber schon in einem vorigen Artikel über Big Data erwähnt habe, sollte man sic hnicht ausschließlich auf technologische Aspekte konzentrieren. Vielmehr ist es wichtig, einen Mehrwert oder Nutzen aus den Daten zu generieren. Denn eine Technologie an sich macht kein Unternehmen erfolgreich. Es ist der Mehrwert, der mit und durch diese Technologie geschaffen wird.

Das Neue an der Big Data Technologie ist vor allem, dass sich große unstrukturierte Datenbestände mit bisher vorhandenen Datenbanktechnologien nicht (sinnvoll) bearbeten oder auswerten lassen. Solche relationale Datenbanken gehen davon aus, dass Datensätze einem klaren Schema folgen, also eine geordnete Reihe von Zahlenreihen und -spalten. Big Data hat aber genau das nicht, sondern es kommen Daten in den unterschiedlichsten Formaten und Dimensionen an.

Hadoop

Ein Stichwort taucht immer wieder aus: Hadoop. Was ist das? In einem Satz zusammengefasst ist Hadoop ein Open-Source-Framework für eine auf mehrere Server verteilte Verarbeitung großer Datenmengen. Es handelt sich dabei um eine einheitliche Speicher- und Verarbeitungsumgebung, mit einer hohen Skalierbarkeit, die auch mit komplexen Datenbeständen umgehen kann. Eine Vorgabe bei der Entwicklung von Hadoop war, dass ein einzelner Server große Datenvolumina nicht effizient verarbeiten kann. Diese Arbeit muss also verteilt werden. Was dieser Technologie zugute kommt ist, dass heute Serverhardware mit vielen Prozessoren schon relativ günstig zu bekommen ist. Hadoop enthält auch MapReduce, ein Tool, das von Google entwickelt wurde, zur verteilten Verarbeitung von Big Data auf verteilten Computerknoten.

Google weiss schließlich, was Big Data ist und wie man damit umgeht.

Tagged on:             

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.