Home
relevancySolutionsPartnersCompanyNewsExpertise
Sitemap
Contact
english
  White Paper
  Literatur
  Links
  Glossar
Glossar

Z W S R P O N M K F E D C A B

Anfrageerweiterung
Oft ist es für Benutzer schwierig abzuschätzen, mit welcher Terminologie ein gesuchter Sachverhalt in den verfügbaren Dokumenten behandelt wird. Die automatische Anfrageerweiterung baut Suchanfragen um verwandte Begriffe aus und hilft damit, vollständigere Suchergebnisse zu erreichen.


Boole'sches Retrieval
Sogenannte Boole'sche Operatoren (AND, OR, NOT) werden verwendet, um Zusammenhänge zwischen einzelnen Suchbegriffen explizit zu definieren.


Coordination Level Matching
Die Rangliste wird in einzelne Abschnitte unterteilt, welche gemäss der Anzahl der gefundenen Suchbegriffe geordnet werden.


Dokument parsen
Das Dokument wird durchforstet, um diejenigen Teile zu identifizieren, die zu erschliessende Informationen enthalten. Andere Textteile (gewisse Formatierungscodes etc.) werden ignoriert.


Duplikatelimination
Gewisse Dokumentenkollektionen enthalten redundante Informationen – im Speziellen viele Dokumente, die mehrfach in exakt oder beinahe identischer Form vorkommen. Solche Duplikate werden zusammengefasst und dem Benutzer in kompakter Form angezeigt.


Entitätenerkennung
Oft ist Hintergrundwissen nötig, um Information optimal zu nutzen. Entitätenerkennung identifiziert Wörter als Namen (Personen, Firmen, Örtlichkeiten) und ermöglicht damit, diese mit zusätzlicher Information in Verbindung zu setzen.


Fuzzy Matching
Fuzzy Matching erlaubt das zuverlässige Auffinden von relevanter Information, insbesondere bei Tippfehlern und alternativen Schreibweisen. Fuzzy Matching erzeugt relevante Treffer unabhängig davon, ob in der Anfrage oder im Dokument Tippfehler vorkommen oder alternative Transkribierungen bzw. Transliterationen genutzt werden.


Kompositazerlegung
Einige Sprachen, z.B. das Deutsche, erlauben die Formierung komplexer Begriffe durch das Zusammenfügen mehrerer einfacher Wörter. Solche Komposita können aber oft auch umschrieben werden oder werden häufig nur unvollständig in einer Anfrage referenziert. Es ist daher wichtig, diese in ihre Bestandteile zu zerlegen.


Konversion – Dokumentenformat
Dokumente in allen gängigen Office-Formaten (Word, Excel, Power Point, Lotus, WordPerfect etc.) sowie den wichtigen Austauschformaten (HTML, XML, SGML, Postscript und PDF) werden geeignet konvertiert, so dass sie in ein Information-Retrieval-System eingelesen werden können.


Konversion – Zeichensatz
Verschiedene Codierungssysteme für textuelle Information (ASCII, ANSI/Windows, ISO Latin, KOI8 kyrillisch etc.) werden in ein geeignetes internes Format konvertiert, so dass sie von einem Information-Retrieval-System verarbeitet werden können.


Konzeptsensoren
Konzeptsensoren erlauben das Formulieren sehr komplexer Zusammenhänge, die das Einbinden von umfangreichen Regeln erfordern. Mit ihrer Hilfe ist es möglich, Sachverhalte, die erst durch gewisse, korrekte Kombinationen mehrerer Faktoren zustande kommen, zu erkennen.


Metadaten
Viele Dokumente, auch wenn sie nur teilstrukturiert sind, enthalten Metadaten, die den Zugriff bedeutend erleichtern (Datum, Autor etc.).


N-Gramme
Wortweise Erschliessung ist geeignet, wenn ein System Dokumente mit wenigen oder keinen Tipp- und Grammatikfehlern verarbeiten soll und wenn die Dokumente in einer dem System bekannten Sprache verfasst sind (nötig für Wortnormalisierung/Kompositazerlegung). Ist dies nicht der Fall, kann ein System alternativ Wörter in kleinere Einheiten zerlegen («N-Gramme»), die einen fehlertoleranten Vergleich ermöglichen.


Nominalphrasenextraktion
Eine Kombination mehrerer Wörter hat oft eine spezifischere Bedeutung als die Summe ihrer Einzelteile. Phrasen, d.h. Mehrwortbegriffe, werden erkannt und als Einheit weiterverarbeitet.


Passagen-Retrieval
In längeren Dokumenten oder Informationsströmen sind oft nur kurze Abschnitte relevant für die Beantwortung einer Suchanfrage. Das System identifiziert solche Abschnitte und gewichtet sie entsprechend, um ein gutes Suchresultat liefern zu können.


probabilistisch
Ranglisten werden sortiert aufgrund von Schätzungen der Wahrscheinlichkeit, dass ein Dokument relevant ist . Es existieren ausgeklügelte Formeln für die Berechnung der Wahrscheinlichkeiten.


regelbasiert
Dokumente werden mit Hilfe einer Menge von Regeln geordnet und dann in einer Rangliste dargestellt. Diese Vorgehensweise ermöglicht einfache Anpassungen an kundenspezifische Rangierungswünsche.


Relevanzrückkoppelung
Benutzer können Suchresultate auf Relevanz prüfen und relevante Dokumente auswählen, worauf das System automatisiert die Anfrage weiter verfeinert und bessere Suchresultate liefert.


Similikate zusammenfassen (clustern)
Gewisse Dokumentenkollektionen enthalten eine grosse Anzahl Dokumente, die sich nur wenig von anderen Dokumenten unterscheiden. Oft handelt es sich um verschiedene Versionen desselben Dokuments oder um Überarbeitungen/Berichtigungen eines Dokuments. Diese werden zusammengefasst und dem Benutzer in kompakter Form präsentiert.


Sprachdetektion
Wortnormalisierung und Kompositazerlegung sind üblicherweise sprachabhängig. Soll ein System Dokumente verschiedener Sprachen verarbeiten, so muss vorgängig für jedes Dokument die Sprache erkannt werden.


sprachübergreifend
In der heutigen Zeit der Globalisierung und der multinationalen Organisationen und Unternehmen sind zunehmend Dokumentenkollektionen zu erschliessen, die Dokumente in vielen verschiedenen Sprachen enthalten. Auf solche Kollektionen wird effizient mit nur einer Anfrage zugegriffen, formuliert in der vom Benutzer bevorzugten Sprache.


Statistische Textkategorisierung
Immer häufiger ist es die Aufgabe eines Information-Retrieval-Systems, nicht mehr nur nach Mengen von Suchbegriffen zu suchen, sondern Dokumente automatisch in eine Hierarchie von Kategorien einzupassen, welche durch komplexe Kriterien definiert sind. Statistische Verfahren lösen diese Aufgabe basierend auf Trainingsbeispielen.


Stoppwort-Elimination
Gewisse, sehr häufige Wörter (Artikel, Präpositionen etc.) werden eliminiert. Diese Wörter helfen nicht, relevante von nicht relevanter Information zu unterscheiden. Durch die Elimination wird zusätzlich die Indexgrösse reduziert und die Suche beschleunigt.


Strukturierte Dokumente
Strukturen in Dokumenten werden erkannt und ausgewertet, um später gezielten Zugriff auf Information nur in bestimmten Feldern zu erlauben.


Subkollektionen
Information lässt sich in Subkollektionen einteilen, insbesondere Information aus verschiedenen Quellen. Damit kann ein Benutzer gezielt einzelne Bereiche der Dokumentenkollektion ein- und ausblenden und seine Suche auf einzelne Bereiche fokussieren.


Wortnormalisierung
Im natürlichen Sprachgebrauch werden Begriffe in verschiedenen Wortformen verwendet, je nach Einsatz in grammatischen Konstrukten. Um sicherzustellen, dass möglichst alle relevanten Informationen gefunden werden, müssen Wörter normalisiert werden, so dass sich beim Vergleich mit Suchbegriffen, die nicht in der exakt selben Form eingegeben wurden, trotzdem Treffer ergeben.


Wortsegmentierung
Die einzelnen Wörter werden dem Dokument oder Informationsstrom entnommen. Hierzu werden unter anderem Satzzeichen und Zwischenräume entfernt.


Zugriffsbeschränkung
Information ist oft nur beschränkt zur Verbreitung freigegeben, insbesondere in Firmen. Ein Suchsystem muss vermeiden, dass unberechtigte Benutzer durch eine «Hintertür» Kenntnis von oder gar Zugriff auf geheime Informationen erlangen.