Fachbeiträge
Data Dicovery: Schritt für Schritt zur optimierten Informationsstruktur
von Dr. Claudia Salazar Dorn und Gerhard Hiller
Intranet, relationale Datenbanken, File-Systeme, alte und neue Anwendungen, Content-Management-Systeme, Unternehmensportale – überall gilt es, Informationen abzulegen und später wieder zu nutzen. In den Frühphasen von Wissensmanagement-Projekten stellen heterogene Informationsstrukturen in unterschiedlichen Systemen und Datenbanken eine besondere Herausforderung dar. Aus den Erfahrungen im Rahmen eines Projektes bei einem führenden Unternehmen aus der Petrochemie-Branche ist der Prozess des so genannten Data Discovery entstanden – ein Analyseverfahren, bei dem ausgefeilte Techniken des Information Retrieval praktisch angewandt werden. Der formalisierte Prozess eignet sich insbesondere, um die Daten- und Informationsbestände eines Unternehmens auszuwerten und erforderliche Optimierungsmaßnahmen abzuleiten.
Inhaltsübersicht:
- Die Herausforderung und der Schlüssel zur Lösung
- Data Discovery – ein zielgerichtetes Analyseverfahren
- Phase 1: Informationen identifizieren
- Phase 2: Informationen entdecken
- Phase 3: Informationen abbilden
- Phase 4: Informationen optimieren
- Phase 5: Anwender mit den passenden Informationen verbinden
- Fazit
Intranet, relationale Datenbanken, File-Systeme, alte
und neue Anwendungen, Content-Management-Systeme, Unternehmensportale –
überall gilt es, Informationen abzulegen und später wieder zu nutzen.
In den Frühphasen von Wissensmanagement-Projekten stellen heterogene Informationsstrukturen
in unterschiedlichen Systemen und Datenbanken eine besondere Herausforderung
dar. Aus den Erfahrungen im Rahmen eines Projektes bei einem führenden
Unternehmen aus der Petrochemie-Branche ist der Prozess des so genannten Data
Discovery entstanden – ein Analyseverfahren, bei dem ausgefeilte Techniken
des Information Retrieval praktisch angewandt werden. Der nun formalisierte
Prozess eignet sich insbesondere, um die Daten- und Informationsbestände
eines Unternehmens auszuwerten und erforderliche Optimierungsmaßnahmen
abzuleiten.
Die Herausforderung und der Schlüssel zur Lösung
Im Jahr 2002 begann der Auftraggeber, eines weltweit marktführenden Unternehmens
für die Gewinnung und Veredelung von Rohöl und Erdgas, eine umfassende
Umstrukturierung. Die Einführung des neuen Geschäftsmodells hatte
das ambitionierte Ziel, die Größe des weltweit präsenten Konzerns
zum eigenen Vorteil zu nutzen: Vernetzung der konzernweiten Produktions- und
Vertriebsprozesse und Effizienzsteigerung durch optimierte Abläufe. Diese
Vorgaben stellten enorme Anforderungen an die Migration der bestehenden Daten-
und Informationssysteme. Neben der Vorbereitung einer kostenoptimierten Migration
stellte sich die Aufgabe, eine jederzeit anpassbare Taxonomie (eine hierarchische
Anordnung von Informationsthemen, die Wissensdomänen in Form von Kategorien
darstellen) zu entwickeln, die den spezifischen Wortschatz der unterschiedlichen
Arbeitsgebiete widerspiegeln sollte.
In diesem Rahmen wurde Data Discovery als Pilotprojekt eingeführt. Die
Analyse der vorliegenden Daten- und Informationssysteme im Fokus des neuen Geschäftsmodells
begründete das Migrationskonzept und die erforderlichen Systemschnittstellen.
Es galt, die Anwendbarkeit einer existierenden, generischen Taxonomie für
jeden Geschäftsbereich zu evaluieren und mit einer neuen Struktur zu ergänzen,
um die Bedürfnisse der einzelnen Arbeitsgebiete zu berücksichtigen.
Anschließend ging es darum, die Präzision der Suchergebnisse zu optimieren,
indem verschiedene Klassifizierungsmethoden miteinander kombiniert wurden. Die
Lessons Learned aus der schrittweisen Durchführung der Data-Discovery-Phasen
in diesem Projekt haben es ermöglicht, ein formalisiertes Verfahren als
generell anwendbaren Standardprozess abzuleiten.
Data Discovery – ein zielgerichtetes Analyseverfahren
Data Discovery zielt darauf ab, sich der Darstellung von nutzbaren Informationen
in heterogenen Strukturen – beschrieben durch Metadaten und Qualitätsangaben
– schrittweise anzunähern. Die daraus resultierende thematische Zusammenführung
der Ergebnisse ergibt eine präzise Darstellung der Informationsinhalte.
Die nicht mehr zeitgemäßen Merkmale bzw. die Mängel der bestehenden
Informationsstrukturen werden erkannt, notwendige Verbesserungsmaßnahmen
können priorisiert werden.
Der Prozess verläuft in einer schrittweisen Annäherung und besteht
aus fünf Hauptphasen. In der Praxis wird Data Discovery mit einer kombinierten
Nutzung von Klassifizierungstechniken und statistischen Auswertungen angewandt.
Zusätzlich werden die zwei ersten Prozessphasen mit den Techniken des Anforderungsmanagement
unterstützt.
Phase 1: Informationen identifizieren
Ziel dieser Phase ist es, ein besseres Verständnis für die Entstehung
und die Nutzung der verfügbaren Informationen in den einzelnen Geschäftsprozessen
zu erreichen. Die Anforderungen aller betroffenen Organisationseinheiten (der
Informationstechnologie sowie die Sicht der Endanwender der verschiedenen Abteilungen)
werden gesammelt, eine Prozessanalyse der fachlichen Abläufe wird nach
verschiedenen Wissensgesichtspunkten durchgeführt:
Welche Informationen sind für welche Geschäftsprozesse als Input
notwendig?
Welche speziellen Informationen werden üblicherweise bei den einzelnen
Aktivitäten benötigt/gesucht?
Welche Bedeutung hat die schnelle Verfügbarkeit von internen/externen Datenbanken,
File-Systemen oder weitere Informationsstrukturen für die einzelnen Aktivitäten
im Prozess?
Welche Informationen gelten als Output?
Wie sehen die technischen Schnittstellen aus?
Phase 2: Informationen entdecken
Ziel dieser Phase ist die Qualifizierung der notwendigen Optimierungsmaßnahmen.
Während dieser Phase ergänzt eine technische Informationsanalyse das
Anforderungsmanagement. Unter Anwendung von Klassifizierungstechniken des Information
Retrieval geht es darum, ein präzises Reporting auf die Metadaten zu erstellen.
Beispielsweise können Klassifizierungstechniken dafür benutzt werden,
eine Auswertung des Pflegestands der Metadaten in verschiedenen Informationsablagen
durchzuführen. Das ist eine grundlegende Aufgabe, um ältere oder uneinheitlich
gepflegte Datenbanken zu konsolidieren. Dieselben Klassifizierungstechniken
lassen sich auch zur Vorbereitung der Migration von Datenbanken nutzen. Dabei
hat es sich in der Praxis gezeigt, dass der Aufwand gegenüber herkömmlichen
Analysen in solchen Fällen um bis zu 40% reduziert werden konnte.
Phase 3: Informationen abbilden
In dieser Phase geht es darum, in einer schrittweisen Annäherung eine
unternehmensspezifische Taxonomie zu erarbeiten. Information Retrieval beinhaltet
weit mehr als nur Suchen und Wiederfinden – auch das Identifizieren und
Klassifizieren des geschäfts- und prozessrelevanten Wissens zur Erarbeitung
eines Klassifizierungsschemas gehören dazu. Unter einer Taxonomie versteht
man die hierarchische Anordnung von Kategorien, die Wissensdomänen entsprechen
und eine an den Geschäftsprozessen orientierte Sicht auf die Informationen
ermöglichen. Gut angewandte Klassifizierungstechniken eignen sich aber
auch bestens dazu, das Wissen eines Unternehmens auszuwerten und es für
eine bessere Nutzung zur Verfügung zu stellen.
Da es sich nicht um einen Navigationsersatz handeln soll, sondern um eine geschäftsprozessorientierte
Sicht auf die gesamte Informationslandschaft des Unternehmens, sind die Ergebnisse
aus der ersten Phase die beste Voraussetzung zum Aufbau einer ersten, flachen
Taxonomie. Die meisten kommerziellen Taxonomie-Lösungen auf dem Markt sind
auf die besondere Geschäftsausrichtung weniger Branchen gerichtet. Außerhalb
dieser Branchen erweisen sich solche Fertiglösungen als zu spezifisch und
daher nicht direkt auf Firmenbelange anwendbar.
Die Terminologie und die Strukturen, die entlang der Geschäftsprozesse
entstehen, sollen sich im Aufbau der Taxonomie widerspiegeln. Dazu hat sich
die Zusammenführung von prozessorientierten Methoden und Retrieval-Techniken
anstelle der Nutzung von statischen Lösungen bewährt. Daraus resultiert
ein maßgeschneidertes, aber dennoch flexibles Gebilde, das Übersicht
und Orientierung in der firmenweiten Informationslandschaft bietet und weiter
ausgebaut werden kann.
Phase 4: Informationen optimieren
Aus den Ergebnissen der ersten drei Phasen lässt sich eine detaillierte
und präzise Darstellung über Quantität und Qualität der
vorhandenen Informationen abbilden. Dies ergibt konkrete Hinweise, um Optimierungsmaßnahmen
zu priorisieren und anzustoßen. Die Hinweise nehmen unterschiedlichen
Ausprägungen an:
Nicht mehr aktuelle Informationen oder historisch gewachsene Versionen, die
an Wissenswert verloren haben, werden archiviert. Durch die Identifizierung
von Duplikaten werden Redundanzen beseitigt. Der tatsächliche Bedarf an
zusätzlichem Speicherplatz kann evaluiert werden.
Entscheidungen über die Pflege und Art der Anzeige von Metainformationen
können besser begründet und umgesetzt werden. Die Auswahl und Definition
der im Frontend erforderlichen Funktionalitäten wird unterstützt.
Der tatsächliche Bedarf an neuer Software kann bewertet werden: Muss ein
komplett neues Unternehmensportal entwickelt werden oder reicht die Einführung
eines webbasierten Dokumentenmanagement-Systems aus?
Phase 5: Anwender mit den passenden Informationen verbinden
Bis zu dieser Phase sind die Klassifizierungstechniken noch rein zu Analyse-
und Auswertungszwecken genutzt worden. Der letzte Schritt besteht nun darin,
die Informationen für die Nutzung durch die Endanwender bereitzustellen.
Der Zugriff auf die Taxonomie wird im Frontend angeboten.
Das Ausmaß und die Ausprägungen des hausinternen Know-hows werden
damit für alle Mitarbeiter sichtbar und greifbar. Der Nutzer verknüpft
das gefundene Dokument mit einer bestimmten Wissensdomäne und damit den
Autor mit seinen speziellen Kenntnissen. Die indirekte Auswirkung auf die interne
Kommunikation ist spürbar: Die Suche nach Experten im Unternehmen wird
einfacher.
Aus der Management-Perspektive ist die klare Darstellung der Wissensdomänen
und ihrer Inhalte mittels einer Taxonomie der Nährboden, um Business-Initiativen
neue Impulse zu geben. Anhand der Taxonomie ist eine konkrete Bewertung von
Qualität und Quantität der Informationsinhalte möglich. Damit
lassen sich die Entwicklungen einer existierenden Wissensdomäne oder die
Neuaufnahme einer zusätzlichen Domäne strategisch priorisieren und
umsetzen.
Fazit
Die Vision einer globalen, allumfassenden IT-Lösung mit noch mehr Technik,
ohne den tatsächlichen Bedarf an neuen Technologien geprüft und bewertet
zu haben, ist nicht zielführend. Vielerorts werden immer mehr neue Systeme
implementiert – mit der Folge, dass immer neue und wiederum schwer durchdringbare
Informations-Silos erzeugt werden. Das eigentliche Ziel, eine zentrale Lösung
zur besseren Nutzbarkeit der Informationen im Unternehmen zu etablieren, wird
dabei meist verfehlt.
Bessere Chancen ergeben sich, wenn im Vorfeld mehr investiert wird. Bevor über
die Implementierung neuer Systeme entschieden wird, sollte der Prozess der Data
Discovery zur Analyse und Klassifizierung der unternehmensweit verfügbaren
Informationen eingeführt werden. Damit schafft man die Voraussetzung zu
einer effektiveren Entscheidungsfindung und meist sogar zu einer kostengünstigeren
und wachstumsfähigen Lösung.
Die Auswirkung auf den Return on Investment eines Wissensmanagement-Projektes
ist konkret messbar. Denn über die Unterstützung der Suchmechanismen
hinaus geht es hier unter anderem auch um das Einsparen von Speicherplatz, einen
geringeren Aufwand bei Datenbankmigrationen bis hin zur optimierten Darstellung
der prozessrelevanten Themen in Form von Wissensdomänen.
Diese Artikel könnten Sie auch interessieren
Fachbeitrag Implementierung
Innovativer Wissenszugriff als Erfolgsfaktor
von Wolfgang Lussner
Fachbeitrag Implementierung
Innovativer Wissenszugriff als Erfolgsfaktor
von Wolfgang Lussner
Fachbeitrag Enterprise Search
Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?
von Klaus Holthausen
Fachbeitrag Enterprise Search
"Esp@cenet – Schweizer Patente online"
von Jörg Wittkewitz
Fachbeitrag Enterprise Search
Wissensnetze als Langzeitgedächtnis
von Thomas Kamps