Ein Blogeintrag über semantische Technologien sollte zwingend mit den unüberschaubaren Datenbergen beginnen, die uns heute oft die Sicht auf benötigte Informationen verdecken: Man weiß, dass sich die weltweite Datenmenge im Internet alle 1,5 Jahre verdoppelt. Man findet schnell heraus, dass das Datenvolumen der im Netz kursierenden Inhalte etwa 1,8 Zettabyte beträgt. Da diese Zahl doch sehr abstrakt ist, sollte man sie in Relation zu etwas setzen, das man kennt, zum Beispiel Bücher. Um nun rauszufinden, welcher Menge an Büchern 1,8 Zettabyte entsprechen, gebe ich die Suchbegriffe „Datenmenge“, „Internet“ und „Buchbände“ bei Google ein. Das erste Suchergebnis ist ein Artikel über die Regesta Imperii, der allenfalls für Historiker interessant ist. Die weiteren Treffer geben Tipps für das Versenden großer Datenmengen. Was kann ich jetzt damit anfangen? Wie soll man mit 1,8 Zettabyte an Daten klarkommen, wenn einem nicht mal Google zeigen kann, wo es langgeht?
Das Problem liegt im Wesen des Algorithmus der gängigen Suchmaschinen begründet: Er sucht nach Zeichenketten, Häufigkeiten von Schlagwörtern und Verlinkungen. Über die Relevanz der gefundenen Dokumente gibt das nur begrenzt Auskunft. Synonyme Begriffe findet er kaum, ebenso wenig berücksichtigt er den Kontext der Suchanfrage und des Suchenden. Häufig erhält man schlechte und unpassende Treffer.
Die Verarbeitung von internen Informationen stellt die Mitarbeiter eines Unternehmens vor ähnliche Probleme: Auch in den Betrieben türmen sich die Datenberge und nur rund ein Fünftel der Daten sind strukturiert. Die Informationen, die ein Mitarbeiter benötigt, sind in der Regel auf verschiedene heterogene Quellen wie Gesetzestexte, Datenbanken oder das Intranet verteilt. Eine Studie des Analystenhauses IDC ergab, dass Wissensarbeiter 15 bis 35% ihrer Zeit mit der Suche nach Informationen verbringen und dabei in höchstens in 50% der Fälle erfolgreich sind. Mitarbeiter, die nicht über alle Fakten verfügen, treffen keine oder die falschen Entscheidungen, was die Unternehmen teuer zu stehen kommen kann.
Gerade in geschäftssensiblen Bereichen wie dem Vertrieb ist es daher unerlässlich, den Mitarbeitern das firmeninterne Wissen strukturiert und aufgabenbezogen zur Verfügung zu stellen. Daher setzen Unternehmen in zunehmender Zahl auf semantische Wissensmanagementlösungen. Bei der Technologie werden Einzelinformationen so verknüpft, dass die Rechner eine Art „Sinnzusammenhang“ erkennen. Die Knotenpunkte eines solchen Netzes bilden die so genannten Objekte: Ein Objekt kann die Firma A sein, der die Objektkategorie „Unternehmen“ zugeordnet ist. Darüber hinaus können z.B. Mitarbeiter, Projekte, Dokumente, Kompetenzbereiche Objekte sein. Die Objekte werden unter Gesichtspunkten wie „verantwortlich für“, „im Auftrag von“, „hat Expertise in“ und ähnlichem in Verbindung gesetzt. Das System ordnet nicht nur ein, um was für eine Information es sich handelt, sondern auch in welcher Beziehung die Objekte zu einander stehen. Ein Vertriebsmitarbeiter findet so nicht nur sach- und produktbezogene Informationen und Dokumente, sondern auch Hinweise zu abgeschlossenen Projekten und Kollegen, die eine Expertise im relevanten Themengebiet haben.
Auf der Ebene der Betriebe ist die Technologie heute schon nutzbar und trägt dazu bei, dass Unternehmen ihre Wissenssuche effizienter gestalten. Unternehmensinterne Anwendungen sind aber nur der Anfang der erwarteten semantischen Revolution. Die Vision ist das Web 3.0, in dem alle Informationen im Netz sinnhaft verknüpft sind. Dadurch lernen Rechner, diese zu bewerten, Muster zu erkennen und eigenständig Entscheidungen zu treffen. Allerdings wird noch eine Menge Zeit vergehen, bis das Internet mit Hilfe der Semantik eine neue Entwicklungsstufe erreicht. Dafür ist die zu strukturierende Datenmenge zu groß.
Bis es soweit ist, bleibt mir nichts anderes übrig, als die Einzelinformationen, die mir Google liefert, zusammenzutragen und auszurechnen, dass 1,8 Zettabyte vergleichbar ist mit der 4.500.000-fachen Datenmenge aller Bücher, die je auf der Erde verfasst wurden. Aha.





