2007/3 | Fachbeitrag | Suchtechnologie

Recherche-Tools: Masse mit Klasse

von Michael Hack

Von Michael Hack

Inhaltsübersicht:

 

 

30 Millionen Dokumente sind im Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) schon jetzt zugänglich. Doch das ist erst der Anfang: Der so genannte Dreiländerkatalog gehört sicher zu den ambitioniertesten Dienstleistungen, die das Kölner hbz in über 30 Jahren für Bibliotheken in Nordrhein-Westfalen und anderen Bundesländern realisiert hat. Langfristig soll der Katalog die gesamte wissenschaftliche Literatur im deutschsprachigen Raum nachweisen. Aktuell sind neben den hbz-Daten die des Bayerischen Bibliotheksverbundes und des Österreichischen Bibliothekenverbundes zu finden.

 

Web-Suchmaschinen als Vorbild

 

Dreh- und Angelpunkt des Bibliothekskatalogs ist eine Anwendung, die im März 2005 als hbz-Suchmaschine vorgestellt wurde. Die Plattform orientiert sich in Funktionalität und Layout an gängigen Web-Suchmaschinen. Die Suchresultate werden per Ranking nach Relevanz sortiert und können nach verschiedenen Kriterien angezeigt oder eingeschränkt werden, etwa Autor und Erscheinungsjahr.

Die Suchmaschinentechnologie soll künftig auch bei einem zweiten Großprojekt eingesetzt werden, an dem das hbz maßgeblich beteiligt ist: dem interdisziplinären Internetportal für wissenschaftliche Information in Deutschland (vascoda). Das hbz ist dabei für den technischen Betrieb und die Weiterentwicklung des Portals zuständig. Am Projekt, das vom Bundesministerium für Wissenschaft und Forschung (BMBF) und der Deutschen Forschungsgemeinschaft (DFG) gefördert wird, beteiligen sich derzeit 40 Einrichtungen mit rund 35 Angeboten, das sind meist nach Fachgebieten geordnete Verzeichnisse für die Online-Recherche.

 

Kurze Antwortzeiten

 

„Nutzer von Online-Bibliothekskatalogen sind heute Google-verwöhnt, das heißt, wie bei einer Web-Suche erwarten sie umfangreiche Resultate in Sekundenbruchteilen“, erklärt Dr. Peter Kostädt, stellvertretender Leiter des hbz. „Wir stellen in der Tat immer wieder fest, dass Suchvorgänge schon abgebrochen werden, wenn sie nach zwei, drei Sekunden keine Ergebnisse liefern.“ Begründen lässt sich das mit der Funktionsweise herkömmlicher Rechercheanwendungen für Bibliothekskataloge und Fachdatenbanken, zum Beispiel Metasuchen in Portalen, die verschiedene Datenquellen ansprechen. Der Nutzer gibt eine Anfrage ein. Sie wandert an die unterschiedlichen Zieldatenbanken. Von dort kommen die einzelnen Suchergebnisse zurück, werden in ein einheitliches Präsentationsformat gebracht und in einer Ergebnisliste zusammengefasst. „Das Verfahren erlaubt zwar die gleichzeitige Suche über verschiedene Ressourcen, ohne dass der Anwender die Suchmaske wechseln muss“, erklärt Kostädt. „Allerdings können die Resultate erst zusammengestellt und sortiert werden, wenn die langsamste Datenbank geantwortet hat. Läuft die Metasuche über mehrere hundert Datenbanken, kann es also entsprechend dauern, bis die komplette Liste beim Nutzer ankommt.“

Dieses Problem besteht bei der hbz-Suchmaschine nicht. Sie sammelt die Daten nicht bei einzelnen Ressourcen ein, sondern durchkämmt einen einzigen großen Index, der alle Verzeichniseinträge der beteiligten Bibliotheken oder Verbünde enthält. Es kostet sie nur Sekundenbruchteile, um aus dem Dreiländerkatalog über 63.000 Einträge zum Stichwort „Goethe“ zu filtern.

 

Kontextsuche mittels linguistischer Verfahren

 

In einer Anwenderumfrage zum vascoda-Portal durch die Universitäts- und Landesbibliothek (ULB) Münster stießen besonders die Formulierungsmöglichkeiten für Suchanfragen auf Kritik. Suchte ein Nutzer beispielsweise nach „Medikament“, konnte er Begriffsvarianten nur über ODER-Verknüpfungen einbinden: „Medikament ODER Medikamente“. Derart angereicherte Suchanfragen verlängerten bei den meisten Datenbanken die Antwortzeit erheblich. Diese Herausforderung beseitigt die neue Technologie, indem schon bei der Indexierung linguistische Verfahren zur Anwendung kommen, die wiederum auf Wörterbücher zugreifen können. Sie berücksichtigen nicht nur den tatsächlich eingegebenen Begriff, sondern auch flektierte Formen, Komposita, Übersetzungen usw. Zum eigentlich gesuchten „Medikament“ findet das System so automatisch auch Einträge wie „Arzneimittelverordnung“, „Medikamentenmissbrauch“, „Drug“ und „Drugs“. „Diese Fähigkeit ist ganz entscheidend, denn in den meisten Fällen wählt der Nutzer zunächst einen möglichst allgemeinen Oberbegriff bei der Themenrecherche, während das, was er eigentlich sucht, in einem ganz anderen Kontext steckt“, sagt hbz-Experte Kostädt. „Die linguistische Kompetenz des Systems führt ihn dann quasi vorausdenkend auf die richtige Spur.“

Das ist auch bei Tippfehlern des Nutzers der Fall. Die Anwendung schlägt dann automatisch den offensichtlich gemeinten Suchbegriff vor.

 

Trefferlisten mit qualifiziertem Ranking

 

Geht es darum, die Resultate nach ihrer Relevanz zu bewerten, haben Suchmaschinen gegenüber traditionellen Recherchemethoden ebenfalls die Nase vorn. Dort werden die Treffer in der Regel nur nach isolierten Kriterien wie Publikationsjahr, Autor, Verlag etc. ausgegeben. Aussagen zur tatsächlichen Relevanz des Titels kann der Anwender daraus nicht unbedingt ableiten. Ein Fachbuch von 1980 ist nicht zwingend veraltet. Genauso wenig ist der Autor mit den meisten Titeln immer der Garant für die beste Information zum Thema.

Mehr Aussagekraft zur Relevanz eines Eintrags entsteht durch ein qualifiziertes Ranking, zum Beispiel über eine Volltextsuche, die die Anzahl der Querverweise auf den Titel in Abstracts und Fachaufsätzen bewertet. Je öfter darauf verwiesen wird, desto höher ist die Wahrscheinlichkeit, dass die Publikation im jeweiligen Fachgebiet maßgeblich ist. Dabei bringt die Technologie einen großen Vorteil gegenüber Internet-Suchmaschinen mit, die nach ähnlichem Muster arbeiten: „Dort liefert die Suche zwar viele Resultate, bleibt aber häufig an der Oberfläche, denn die Suchwerkzeuge dringen gar nicht in alle Ebenen einer Webseite vor, das so genannte Deep Web“, erklärt Kostädt. „Das ist bei unserer Suchmaschine anders. Wir bieten ihr von vornherein einen Pool aus strukturierten Daten an und sorgen dafür, dass er vollständig durchsucht und bewertet werden kann. Sind die entsprechenden Rankingalgorithmen einmal definiert, lassen sie sich äußerst einfach umsetzen. Das macht die Nutzung besonders flexibel.“ Dazu gehört auch die Option, Datenbanken gezielt abzuschalten oder hinzuzufügen. „Das ist vor allem für fortgeschrittene Nutzer ein großer Vorteil, die schon genau wissen, wonach sie suchen möchten“, ergänzt Kostädt. „Sie müssen sich dann nicht mehr händisch durch die meistens sehr umfangreiche Trefferliste einer Kategorie arbeiten“.

 

Diese Artikel könnten Sie auch interessieren

Datenchaos: Suche als größte Effizienzbremse im Arbeitsalltag

WISSENplus
Haben unsere Mitarbeiter überhaupt noch Zeit fürs Wesentliche? Diese Frage stellen sich Firmenchefs großer wie kleiner Unternehmen immer häufiger. Denn in Zeiten eines rasanten Datenwachstums verbringen Angestellte rund ein Viertel ihrer Arbeitszeit allein damit, Dateien, Dokumente und Informationen aufzufinden, die an den unterschiedlichsten Stellen im Unternehmen abgelegt wurden – Tendenz steigend. ...

Weiterlesen

Suchen: gewusst wie

Datenbanken sind wahre Wissensfundgruben. Sie enthalten alle geschäfts- und produktrelevanten Angaben eines Unternehmens. Doch zeigen Suchmaschinen auch, was in der Datenbank steckt? Der folgende Artikel zeigt, dass das Recherchieren von bestimmten Informationen nicht immer zu dem gewünschten Ergebnis führt....

Weiterlesen

Internationale Raumstation: Wie das Transportsystem ATV sein Projektwissen bewahrt

WISSENplus
Was macht man, um das Know-how, das innerhalb eines Projekts erarbeitet wurde, nicht zu verlieren? Aufbewahrung des Projektwissens ist eine weitreichende Aufgabenstellung. Sie könnte als fortlaufende Speicherung während des Projektablaufs verstanden werden, wo auch Wissensteilung durch Teamarbeit und Interessensgruppen hinzukämen. Im Folgenden soll jedoch vor allem das Abspeichern am Projektende (oder am...

Weiterlesen

Als die Bilder (weg)laufen lernten

24 Bilder umfasst eine einzige Sekunde Film, 1.440 Bilder pro Minute, 86.400 Bilder in der Stunde. Und moderne Archive beherbergen heute Hunderte Stunden an Videos und Zelluloid-Filmen. Vor allem Unternehmen zeigen sich zunehmend gern im Fernsehen und auf der Leinwand. Wer in dieser Informationsflut eine ganz bestimmte Einstellung sucht, steht vor einer großen Herausforderung. Denn bewegte Bilder lassen si...

Weiterlesen

Unternehmen entdecken die Vorteile von Enterprise Search

WISSENplus
Eine Suche im Internet liefert in Sekundenbruchteilen Ergebnisse. Einfach, schnell und unkompliziert. Im Unternehmen genauso komfortabel nach Informationen zu suchen wie im Internet – das erwarten Mitarbeiter von einer organisationsinternen Suche. Obwohl es auf dem Markt mittlerweile eine Reihe von Enterprise-Search-Lösungen gibt, zögern viele Firmen noch mit der Einführung. Die Mitarbeiter fordern hi...

Weiterlesen

Informationen bündeln, strukturieren & elektronisch verwalten

WISSENplus
Ein großes Problem in Unternehmen, aber auch in Institutionen und Behörden besteht darin, geschäftsrelevante Informationen nicht nur zu sammeln, sondern sie auch adäquat zu strukturieren, zu archivieren und in einem zentralen Wissenspool quasi auf Knopfdruck jederzeit wieder verfügbar zu machen. Vor dem allseits bekannten Hintergrund, dass die Informationsflut zukünftig noch weiter steigen wird,...

Weiterlesen

Internetsuche - nichts für den Unternehmensalltag?

WISSENplus
Die Navigation durch die unternehmensweiten Informationen und der gezielte Zugriff auf benötigtes Wissen sind aus Effizienzgründen, aber auch aus regulatorischer Sicht unerlässlich. So stecken heute hinter der Suchfunktionalität von Produkten für das Informationsmanagement in der Regel mehrere Suchmethoden, meist eine Kombination aus Schlüsselfeld- und Volltextsuche mit verschiedenen ausgefeilten Alg...

Weiterlesen

Wissensverlust verhindern: Berliner Senatsverwaltung setzt auf Social Collaboration

WISSENplus
Die Bevölkerung hierzulande wird immer älter. Das ist auch für die öffentliche Verwaltung eine Herausforderung, denn zahlreiche Mitarbeiter scheiden altersbedingt aus und nicht immer können freigewordene Stellen problemlos neu besetzt werden. Um zu verhindern, dass Verwaltungen mit dem Personal auch ein gewaltiges Maß an Know-how verlieren, wird effektives Wissensmanagement immer wichtiger. Die Berlin...

Weiterlesen