Indexierung
Aus WeCoWi
Indexierung, Verschlagwortung oder auch Beschlagwortung bezeichnet die Zuordnung von Schlagworten zu einem Dokument. Die Indexierung dient dazu Informationen besser erschließen zu können und besser wiederfinden zu können. Unterschieden wird dabei in kontrollierte Indexierung mit einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation und freie Indexierung bzw. freie Verschlagwortung mit nicht vorgegebenen Deskriptoren. Im Internet wird häufig auch in Bezug auf Soziale Netzwerke eine Indexierung mithilfe von sogenannten Tags durchgeführt.
Inhaltsverzeichnis |
[Bearbeiten] Indexierungsmethoden
Es gibt verschieden Methoden zur Indexierung
- Manuelle, computergestützte und automatische Indexierung
- Kontrollierte Indexierung und freie Indexierung
- Gleichordnende Indexierung und Syntaktische Indexierung
[Bearbeiten] Manuelle Indexierung
Die Manuelle Indexierung, Intellektuelle Indexierung oder Verschlagwortung wird genutzt um den Inhalt eines Dokumentes zu erschließen und einen Überblick über den Inhalt zu erhalten. Dabei werden dem Dokument Schlagwörter zugewiesen die ein möglichst aussagekräftig sein sollen. Die freie Indexierung mit beliebigen Wörtern ist meist sehr ungenau. Deshalb werden häufig Schlagwörter aus einem kontrollierten Vokabular (z. B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache verwendet.
[Bearbeiten] Automatische Indexierung
Eine Art der automatischen Indexierung ist die Volltextindexierung. Dabei wird mit Ausnahme von Stoppwörtern der gesamte Text in den Index aufgenommen (z. B. für eine Suchmaschine). Die Wörter werden dabei meistens auf den Wortstamm reduziert.
Bei statistischen Indexierungsverfahren wird die Auswahl durch die Ermittlung von Worthäufigkeiten getroffen. Dadurch gelangen nicht alle Wörter in den Index, sondern nur die, die besonders Häufig im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So lässt sich leicht der Wert oder die Gewichtung des Begriffs als Deskriptor ablesen. Die Gewichtung eines Begriffs ist höher, je weniger Dokumente mit diesem Begriff es im Archiv gibt und je häufiger der Begriff im zu indexierenden Dokument vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. In diesem Dokument wird zum Beispiel häufig „Begriff“ verwendet, denn dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiter Begriff in spe. Daran kann man sehen, dass allein an der Häufigkeit nicht erkannt werden kann, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.
Die Computerlinguistik erlaubt auch intelligentere automatische Verfahren. Diese können erreichen nicht die Qualität manueller Indexierung, allerdings ist die Indexierungskonsistenz wesentlich besser.
[Bearbeiten] Computergestützte Indexierung
Die computergestützten Indexierung (auch Indizierung) bedient sich maschinell vorgeschlagener Deskriptoren und die manuell ausgewählt werden. Der Computer führt dabei die Indizierung der durch Menschen Vor- oder Nachbereitung Daten durch.
[Bearbeiten] Verschlagwortung von Bildern
Zur inhaltlichen Verschlagwortung von Bildern wird in vielen Museen die Klassifikation Iconclass eingesetzt. Auch die Schlagwortnormdatei findet zunehmends im Museumsbereich Verwendung. Viele Bildagenturen und Bildarchive verwenden den IPTC-NAA-Standard und die darin enthaltenen Regeln für Kategorien und Schlagwörter. Eine große Rolle spielen allerdings auch noch hausinterne Schlagwortlisten. Daneben gibt es verschiedene Verfahren mit denen sich Bilder mittels Ähnlichkeitssuche und Relevance Feedback recherchieren lassen.
[Bearbeiten] Literatur
- Gaus, Wilhelm (1995): Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin
- Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188
- Salton, Gerard; McGill, Michael J. (1987): Information Retrieval. Grundlegendes für Informationswissenschaftler. Hamburg [u.a.]: McGraw-Hill
- Holger Nohr: Grundlagen der automatischen Indexierung. Ein Lehrbuch. 3. Auflage. Logos-Verlag, Berlin 2005, ISBN 3-8325-0121-5
- Martin Kästner: Vergleich ausgewählter Methoden zur Verschlagwortung und Validierung der Methoden durch ein Test-Verfahren. Ilmenau, Techn. Univ., Diplomarbeit, 2006. 204 S.
[Bearbeiten] WebLinks
- Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5. Wissenserschließung und -darstellung: Indexieren
- Virtuelles Handbuch Informationswissenschaft: Information Retrieval
- Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung.
- Zimmermann, Harald H.: Automatische Indexierung und elektronische Thesauri
- Elektron. Referenz: Vergleich ausgewählter Methoden zur Verschlagwortung

