|

Anfrageerweiterung
Oft ist es für Benutzer schwierig abzuschätzen,
mit welcher Terminologie ein gesuchter Sachverhalt in den
verfügbaren Dokumenten behandelt wird. Die automatische
Anfrageerweiterung baut Suchanfragen um verwandte Begriffe
aus und hilft damit, vollständigere Suchergebnisse zu
erreichen.

Boole'sches
Retrieval
Sogenannte Boole'sche Operatoren (AND, OR, NOT) werden
verwendet, um Zusammenhänge zwischen einzelnen Suchbegriffen
explizit zu definieren.

Coordination
Level Matching
Die Rangliste wird in einzelne Abschnitte unterteilt,
welche gemäss der Anzahl der gefundenen Suchbegriffe
geordnet werden.

Dokument
parsen
Das Dokument wird durchforstet, um diejenigen Teile
zu identifizieren, die zu erschliessende Informationen enthalten.
Andere Textteile (gewisse Formatierungscodes etc.) werden
ignoriert.

Duplikatelimination
Gewisse Dokumentenkollektionen enthalten redundante
Informationen im Speziellen viele Dokumente, die mehrfach
in exakt oder beinahe identischer Form vorkommen. Solche Duplikate
werden zusammengefasst und dem Benutzer in kompakter Form
angezeigt.

Entitätenerkennung
Oft ist Hintergrundwissen nötig, um Information
optimal zu nutzen. Entitätenerkennung identifiziert Wörter
als Namen (Personen, Firmen, Örtlichkeiten) und ermöglicht
damit, diese mit zusätzlicher Information in Verbindung
zu setzen.

Fuzzy Matching
Fuzzy Matching erlaubt das zuverlässige Auffinden von relevanter
Information, insbesondere bei Tippfehlern und alternativen Schreibweisen.
Fuzzy Matching erzeugt relevante Treffer unabhängig davon, ob in der Anfrage
oder im Dokument Tippfehler vorkommen oder alternative Transkribierungen
bzw. Transliterationen genutzt werden.

Kompositazerlegung
Einige Sprachen, z.B. das Deutsche, erlauben die Formierung
komplexer Begriffe durch das Zusammenfügen mehrerer einfacher
Wörter. Solche Komposita können aber oft auch umschrieben
werden oder werden häufig nur unvollständig in einer
Anfrage referenziert. Es ist daher wichtig, diese in ihre
Bestandteile zu zerlegen.

Konversion Dokumentenformat
Dokumente in allen gängigen Office-Formaten (Word,
Excel, Power Point, Lotus, WordPerfect etc.) sowie den wichtigen
Austauschformaten (HTML, XML, SGML, Postscript und PDF) werden
geeignet konvertiert, so dass sie in ein Information-Retrieval-System
eingelesen werden können.

Konversion Zeichensatz
Verschiedene Codierungssysteme für textuelle
Information (ASCII, ANSI/Windows, ISO Latin, KOI8 kyrillisch
etc.) werden in ein geeignetes internes Format konvertiert,
so dass sie von einem Information-Retrieval-System verarbeitet
werden können.

Konzeptsensoren
Konzeptsensoren erlauben das Formulieren sehr komplexer
Zusammenhänge, die das Einbinden von umfangreichen Regeln
erfordern. Mit ihrer Hilfe ist es möglich, Sachverhalte,
die erst durch gewisse, korrekte Kombinationen mehrerer Faktoren
zustande kommen, zu erkennen.

Metadaten
Viele Dokumente, auch wenn sie nur teilstrukturiert
sind, enthalten Metadaten, die den Zugriff bedeutend erleichtern
(Datum, Autor etc.).

N-Gramme
Wortweise Erschliessung ist geeignet, wenn ein System
Dokumente mit wenigen oder keinen Tipp- und Grammatikfehlern
verarbeiten soll und wenn die Dokumente in einer dem System
bekannten Sprache verfasst sind (nötig für Wortnormalisierung/Kompositazerlegung).
Ist dies nicht der Fall, kann ein System alternativ Wörter
in kleinere Einheiten zerlegen («N-Gramme»), die
einen fehlertoleranten Vergleich ermöglichen.

Nominalphrasenextraktion
Eine Kombination mehrerer Wörter hat oft eine
spezifischere Bedeutung als die Summe ihrer Einzelteile. Phrasen,
d.h. Mehrwortbegriffe, werden erkannt und als Einheit weiterverarbeitet.

Passagen-Retrieval
In längeren Dokumenten oder Informationsströmen
sind oft nur kurze Abschnitte relevant für die Beantwortung
einer Suchanfrage. Das System identifiziert solche Abschnitte
und gewichtet sie entsprechend, um ein gutes Suchresultat
liefern zu können.

probabilistisch
Ranglisten werden sortiert aufgrund von Schätzungen
der Wahrscheinlichkeit, dass ein Dokument relevant ist . Es
existieren ausgeklügelte Formeln für die Berechnung
der Wahrscheinlichkeiten.

regelbasiert
Dokumente werden mit Hilfe einer Menge von Regeln
geordnet und dann in einer Rangliste dargestellt. Diese Vorgehensweise
ermöglicht einfache Anpassungen an kundenspezifische
Rangierungswünsche.

Relevanzrückkoppelung
Benutzer können Suchresultate auf Relevanz prüfen
und relevante Dokumente auswählen, worauf das System
automatisiert die Anfrage weiter verfeinert und bessere Suchresultate
liefert.

Similikate
zusammenfassen (clustern)
Gewisse Dokumentenkollektionen enthalten eine grosse
Anzahl Dokumente, die sich nur wenig von anderen Dokumenten
unterscheiden. Oft handelt es sich um verschiedene Versionen
desselben Dokuments oder um Überarbeitungen/Berichtigungen
eines Dokuments. Diese werden zusammengefasst und dem Benutzer
in kompakter Form präsentiert.

Sprachdetektion
Wortnormalisierung und Kompositazerlegung sind üblicherweise
sprachabhängig. Soll ein System Dokumente verschiedener
Sprachen verarbeiten, so muss vorgängig für jedes
Dokument die Sprache erkannt werden.

sprachübergreifend
In der heutigen Zeit der Globalisierung und der multinationalen
Organisationen und Unternehmen sind zunehmend Dokumentenkollektionen
zu erschliessen, die Dokumente in vielen verschiedenen Sprachen
enthalten. Auf solche Kollektionen wird effizient mit nur
einer Anfrage zugegriffen, formuliert in der vom Benutzer
bevorzugten Sprache.

Statistische Textkategorisierung
Immer häufiger ist es die Aufgabe eines Information-Retrieval-Systems,
nicht mehr nur nach Mengen von Suchbegriffen zu suchen, sondern
Dokumente automatisch in eine Hierarchie von Kategorien einzupassen,
welche durch komplexe Kriterien definiert sind. Statistische
Verfahren lösen diese Aufgabe basierend auf Trainingsbeispielen.

Stoppwort-Elimination
Gewisse, sehr häufige Wörter (Artikel, Präpositionen
etc.) werden eliminiert. Diese Wörter helfen nicht, relevante
von nicht relevanter Information zu unterscheiden. Durch die
Elimination wird zusätzlich die Indexgrösse reduziert
und die Suche beschleunigt.

Strukturierte Dokumente
Strukturen in Dokumenten werden erkannt und ausgewertet,
um später gezielten Zugriff auf Information nur in bestimmten
Feldern zu erlauben.

Subkollektionen
Information lässt sich in Subkollektionen einteilen,
insbesondere Information aus verschiedenen Quellen. Damit
kann ein Benutzer gezielt einzelne Bereiche der Dokumentenkollektion
ein- und ausblenden und seine Suche auf einzelne Bereiche
fokussieren.

Wortnormalisierung
Im natürlichen Sprachgebrauch werden Begriffe
in verschiedenen Wortformen verwendet, je nach Einsatz in
grammatischen Konstrukten. Um sicherzustellen, dass möglichst
alle relevanten Informationen gefunden werden, müssen
Wörter normalisiert werden, so dass sich beim Vergleich
mit Suchbegriffen, die nicht in der exakt selben Form eingegeben
wurden, trotzdem Treffer ergeben.

Wortsegmentierung
Die einzelnen Wörter werden dem Dokument oder
Informationsstrom entnommen. Hierzu werden unter anderem Satzzeichen
und Zwischenräume entfernt.

Zugriffsbeschränkung
Information ist oft nur beschränkt zur Verbreitung
freigegeben, insbesondere in Firmen. Ein Suchsystem muss vermeiden,
dass unberechtigte Benutzer durch eine «Hintertür»
Kenntnis von oder gar Zugriff auf geheime Informationen erlangen.

|