Fachbeiträge
Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?
von Klaus Holthausen
Neue, scheinbar intelligente Internet-Suchmaschinen verblüffen durch ihre innovativen Funktionen: Jedem Suchwort werden inhaltliche Kategorien zugeordnet, die die Suche wesentlich überschaubarer machen. Parallel dazu wird zunehmend auch Datenbank- und Dokumentenmanagement-Software mit intelligenten Retrieval-Funktionalitäten ausgestattet. Der Frage, worin sich die zahlreichen am Markt angebotenen Produkte technologisch tatsächlich unterscheiden, geht Klaus Holthausen nach.
Von Klaus Holthausen
Inhaltsübersicht:
- Patentschriften eröffnen den Blick hinter die Kulissen
- Das Vektorraum-Modell
- Statistische Thesauri
- Neurobiologisch motivierte Netzwerke
- Wissen bleibt subjektiv
- Fazit
Neue scheinbar intelligente
Internet-Suchmaschinen wie etwa wisenut
oder vivisimo
verblüffen durch ihre innovativen Funktionen: Jedem Suchwort
werden inhaltliche Kategorien zugeordnet, die die Suche wesentlich
überschaubarer machen. Parallel dazu wird zunehmend auch Datenbank-
und Dokumentenmanagement-Software mit intelligenten Retrieval-Funktionalitäten
ausgestattet. Wie unterscheiden sich nun die zahlreichen Produkte
am Markt technologisch?
Patentschriften eröffnen den Blick hinter die Kulissen
Das Fachvokabular der Produkt-Flyer und Web-Demos ist für
den Laien verwirrend wie soll man etwa den Unterschied zwischen
"Bayesian Networks" und "Clusterungs-Technologie"
bewerten? Ein kleiner Blick hinter die Kulissen ist möglich,
wenn man sich die Patentschriften im Bereich der Suchtechnologie
näher anschaut. Allein in der Patentklasse G06F verbergen sich
Hunderte Patente, die quasi die Kochrezepte für intelligente
Wissensmanagement-Funktionalitäten enthalten. Als "Anleitungen
zur technischen Lehre" müssen Patentschriften detailliert
abgefasst werden. Software-Patente enthalten üblicherweise
im Anhang Flussdiagramme, die die wesentlichen Merkmale des Verfahrens
illustrieren. Demnach bieten die Patentschriften einen ausgezeichneten
Einstieg in das Studium der verschiedenen Suchtechnologien.
Eine komfortable Patentrecherche ist etwa unter www.delphion.com
möglich. Leider sind seit einigen Monaten ausführliche
Recherchen kostenpflichtig, lediglich die Kurzzusammenfassungen
sind ohne Anmeldung zugänglich. Für jeweils drei Dollar
kann man sich komplette Patentschriften als PDF-Datei herunterladen.
Das Vektorraum-Modell
Die Mehrheit der untersuchten Patente für Suchtechnologien
stützt sich auf das so genannte Vektorraum-Modell, zu dem Gerard
Salton wesentliche Beiträge geleistet hat [1].
Was ist nun die grundlegende Idee hinter dem Ansatz von Salton?
Zunächst geht er davon aus, dass zwei Dokumente dann eine inhaltliche
Ähnlichkeit aufweisen, wenn sie möglichst viele Begriffe
gemeinsam enthalten. Für jeden Begriff wird ermittelt, wie
oft er insgesamt im Datenbestand auftritt und wie oft er in einem
einzelnen Dokument enthalten ist. Die relative Häufigkeit eines
Begriffes wird somit zur Gewichtungsgrundlage. Die Abbildung des
Dokumentes auf eine Kette gewichteter Begriffe wird als Vektor bezeichnet.
Diese Vektoren kann man sich als geometrische Objekte etwa
Pfeile vorstellen. Wenn zwei Vektoren in dieselbe Richtung
zeigen, sind die dazugehörigen Dokumente ähnlich. Der
Winkel zwischen den beiden Vektoren definiert also das Ähnlichkeitsmaß.
Die Mathematik hierzu ist seit Anfang der 70er Jahre publiziert,
ein Standard-Werk ist das Buch "Introduction to Modern Information
Retrieval" von 1983 [2]. Die Formeln
als solche sind nicht patentierbar.
Wie kommt es dann dennoch zu der Vielzahl der Patente? Im Wesentlichen
sind hier drei Möglichkeiten aufzuführen:
- Die Patente beschreiben in der Regel Verfahren oder Systeme. Die Umsetzung der Algorithmen in einem konkreten Datenbank-Umfeld, die Reihenfolge der Verarbeitung sowie die Verteilung der Information variieren. Hier steckt das Know-how quasi im Detail. Zum Beispiel erweisen sich manche Verfahren bei der Verarbeitung großer Datenmengen (> 1 GB) als schlicht zu langsam. Hier haben dann diejenigen Anbieter einen Vorteil, denen es gelingt, durch Vorberechnungen und Verschlankungen des Algorithmus die Performance zu optimieren. Diesen Vorsprung durch ein Patent zu sichern, ist legitim. Die Patentschrift US 6377945 gibt ein aktuelles Beispiel, wie sich die Datenhaltung durch ein spezielles Verfahren ("Sparse suffix trees") optimieren lässt.
- Die Formeln werden variiert. Ein Beispiel hierzu gibt die Patentschrift US 5692176 ("Associative text search and retrieval system"). Dort wird nicht unmittelbar mit relativen Häufigkeiten gearbeitet, sondern die Quadrate der Häufigkeiten bilden die Gewichtungsgrundlage. Solche Variationen bilden durchaus einen strategischen Vorteil: Die ad hoc gesetzte Hausformel ist meistens so spezifisch, dass sie in keinem Lehrbuch der Welt auftaucht. Ein naturwissenschaftliches Gesetz als Formel wäre ja auch nicht patentierbar. Meistens wird der Kern-Algorithmus noch um heuristische Regeln ergänzt.
- Jemand hat eine wirklich innovative Idee.
Eine hervorragend anschauliche Darstellung der Arbeitsweise des
Vektorraum-Modells gibt die Patentschrift US 4839853 ("Computer
information retrieval using latent semantic structure"). Eine
interessante Variante dieses Verfahrens setzt explizit neuronale
Netzwerke zur Erstellung von Kontext-Vektoren ein (US 5619709).
Da die Vektorraum-Verfahren vom Ansatz her übereinstimmen,
bestimmt meistens der heuristische Anteil über die Qualität
der Suchergebnisse.
Statistische Thesauri
Eine Alternative zum Vektorraum-Modell stellen statistische Thesauri
dar (Beispiel: US 5926811). Hier setzt man so an, dass im voraus
Ähnlichkeiten zwischen Begriffen berechnet werden, die dann
bei der Gewichtung von Dokumenten genutzt werden können. Solche
automatisch generierten Thesauri können dann noch durch externe
Daten (z.B. Wörterbücher) ergänzt werden. Diese Systeme
ersparen es dem Anwender, etwaige Variationen seiner Suchanfrage
einzugeben. Lautet das Suchwort beispielsweise "Computer",
so assoziiert der statistische Thesaurus den Begriff "PC"
und ein Wörterbuch könnte den Begriff "Rechner"
hinzufügen. So wird insgesamt eine wesentlich größere
Zahl von Dokumenten berücksichtigt, insbesondere auch diejenigen
Dokumente, die das eigentliche Suchwort nicht enthalten.
Sehr interessant ist die Idee, einzelne Silben und Buchstabenfolgen
als Mikro-Syntax zu betrachten und diesen Gewichtungsfaktoren zuzuordnen
(siehe etwa US 4849898). Bestimmte Regelmäßigkeiten,
die bei der Anwendung dieses Ansatzes auf die arabische Sprache
gefunden wurden, inspirierten hier den Erfinder Dr. Tammam Adi.
Das intelligente Text-Retrieval alleine ermöglicht häufig
noch keine hinreichenden Wissensmanagement-Funktionalitäten.
Sinnvolle Ergänzungen sind die Berücksichtigung von Benutzer-Profilen
(US 6098065) sowie die Implementierung von Knowledge Bases (US 6038560).
Gerade in diesem Umfeld wird sich ein großer Teil der künftigen
Erfindungen bewegen.
Neurobiologisch motivierte Netzwerke
Wo sind nun aber künftig wesentliche Innovationen zu erwarten?
Neurowissenschaftler wie etwa Ralph Linsker von der IBM-Forschungsabteilung
in New York haben Ende der 90er Jahre mathematische Verfahren entwickelt,
die die Art und Weise, wie natürliche Nervenzellen Informationen
austauschen, nachbilden. Auf der Basis dieser Technologie lassen
sich leistungsstarke Suchmaschinen herstellen. Als Verfahren zur
Mustererkennung mittels eines "Artificial Neural Device"
wird diese Technologie bereits heute vom US-amerikanischen Militär
genutzt. Mit der Verfügbarkeit leistungsstarker PCs öffnet
sich nun ein breites Anwendungsfeld im Bereich des Wissensmanagements.
Gegenüber klassischen neuronalen Netzwerken bieten die neurobiologisch
motivierten Netzwerke einen ganz wesentlichen Vorteil: Die Netzwerke
müssen nicht trainiert werden, sie legen völlig autonom
die Bedeutung von Information fest.
Das Konzept der so genannten internen Repräsentation beschreibt,
wie neuronale Systeme selbstorganisiert eine Repräsentation
ihrer Welt konstruieren [3]. Dieser Ansatz
hat auch philosophische Konsequenzen: Hat Hegel einst in seiner
"Wissenschaft der Logik" eine selbstreferenzielle Mechanik
des Denkens postuliert, die sich nunmehr auf Computer abzubilden
beginnt? In der Tat lassen sich verblüffende Analogien zwischen
Hegels Logik und der Arbeitsweise selbstorganisierter neuronaler
Netzwerke feststellen [4].
Wissen bleibt subjektiv
Bemerkenswert ist, dass Wissen auch künftig subjektiv bleibt.
Ein assoziativer Rechner, der etwa ein Zeitungsarchiv abbildet (ein
Beispiel ist unter www.waz.de
zu erproben), wird letzten Endes lediglich die Themen und den Wortlaut
der Redakteure abbilden. Das gleiche System angewandt auf
ein anderes Zeitungsarchiv führt zu völlig anderen
Wissensrepräsentationen: Eine Finanzzeitung hat eine andere
Repräsentation von "Bill Clinton" als etwa ein Boulevard-Blatt.
Aber es geht noch weiter: Der Steuerexperte des Finanzblatts verwendet
explizit ein anderes semantisches Netz als sein Kollege, der über
Börsenkurse berichtet. Die Idee eines weltweiten Semantic Web
übersieht diesen per se subjektiven Charakter von Information.
Jeder Aussagesatz ist eingebettet in eine individuelle Matrix von
Hypothesen und Erfahrungen.
Selbstreferenzielle neuronale Netzwerke sind in der Lage, Brücken
zu bauen zwischen verschiedenen Communities. Die Suche nach Information
hat zur Voraussetzung, dass wir uns über das zu Findende orientieren.
Diese enge Verzahnung zwischen suchen und lernen wird häufig
übersehen. Ein Suchender, dessen Suchanfrage "Mannesmann"
unter anderem auch mit Artikeln über Vodafone beantwortet wird,
wird frustriert sein, wenn er nichts von der Mega-Fusion weiß.
Jede Antwort des Systems bedeutet einen Iterationsschritt für
eine Korrektur der Hypothesen, die der nächsten Frage zugrunde
liegen werden.
Der Mensch, der in der Maschinerie des Wissensmanagements steckt,
wird also unverzichtbar bleiben. Insofern bringen intelligente Suchmaschinen
nicht in erster Linie einen Rationalisierungseffekt, sondern eben
auch Qualifizierungspower. Erst durch intelligente Suchmaschinen
und menschliche Broker, die diese Maschinen bedienen, wird Information
zur handelbaren Ware. Der interaktive Umgang mit Information fördert
nicht nur das Wissen, sondern auch das Verständnis. Und Verständnis
unterscheidet sich von Wissen durch das vernetzte Denken [5].
Fazit
Diese Ausführungen zeigen einmal mehr, dass Wissensmanagement
offenbar nur zu einem begrenzten Teil mit Software zu tun hat. Die
Organisation des Umgangs mit Information in den Unternehmen ist
der eigentliche kritische Erfolgsfaktor: Die Diskussion über
Zugriffsrechte im Unternehmen wird zur kontraproduktiven Machtfrage,
wenn untergeordneten Mitarbeitern die Entfaltung ihres semantischen
Netzwerks verwehrt wird.
Noch stehen Erfolgsgeschichten im Zusammenhang mit der Einführung
intelligenten Wissensmanagements in Unternehmen aus. Von der Einführung
des Buchdrucks durch Gutenberg bis zum autonomen Leser, der durch
offene Bibliotheken schreitet, sind Jahrhunderte vergangen. Wie
lange will sich eine Volkswirtschaft Zeit nehmen, den Produktivfaktor
Wissen zu optimieren? Zumal Technologien auf ihre Einführung
warten, vor denen kein Mensch Angst haben muss.
Das wirklich Neue wäre also eine Suchmaschine, in der wir
uns selbst wiederfinden...
Literatur
[1] Salton, G.: Recent Studies in Automatic Text Analysis and Document
Retrieval. In: Journal of the Association for Computing Machinery,
vol. 20, No. 2, Apr. 1973.
[2] Salton, G./McGill, M.J.: Introduction to Modern Information
Retrieval. New York 1983.
[3] Schmidt, S.J./Rusch, G./Breidbach, O. (Hrsg.): Interne Repräsentationen
Neue Konzepte der Hirnforschung. Frankfurt/M. 1996.
[4] Breidbach, O: Deutungen. Velbrück, Weilerswist 2001.
[5] Vester, F.: Leitmotiv vernetztes Denken. München 1990.
Diese Artikel könnten Sie auch interessieren
Fachbeitrag Implementierung
Innovativer Wissenszugriff als Erfolgsfaktor
von Wolfgang Lussner
Fachbeitrag Implementierung
Innovativer Wissenszugriff als Erfolgsfaktor
von Wolfgang Lussner
Dokumentation + Kommunikation Enterprise Search
Finden heißt: Finden können, finden wollen und finden lernen
von Matthias Giersche, Jan Schwaab
Fachbeitrag Enterprise Search
"Esp@cenet – Schweizer Patente online"
von Jörg Wittkewitz
Fachbeitrag Enterprise Search
Data Dicovery: Schritt für Schritt zur optimierten Informationsstruktur
von Dr. Claudia Salazar Dorn und Gerhard Hiller