DNI Deutsches Netzwerk der Indexer
 
 Willkommen
 
 Fragen
 
 Mitglieder
 
 Ressourcen
 
 Neuigkeiten
 
 Kontakt
 
 Site Index
 
 
 
 
     
 Fragen
  > Computer + Software
 
 
 
 
 

Die folgenden Fragen versuchen, die wichtigsten Aspekte und Problembereiche der verschiedenen Software-Optionen, die es auf dem Markt gibt, zu beleuchten. Tools verschiedener Art können auch in Kombination eingesetzt werden.

Was ist Dedicated Indexing Software?
Was ist Embedded Indexing Software?
Welche anderen Software-Optionen gibt es?
Ist automatische Registererstellung möglich?
Entspricht die Freitextsuche einem Register?
 
 

Was ist Dedicated Indexing Software?

Dies ist eigenständige, speziell für die Indexerstellung entwickelte Software, die unabhängig von den zu indexierenden Text-Dateien benutzt wird (aber nicht mit angeblich „automatischer“ Indexing-Software zu verwechseln ist). Index-Einträge, Querverweise und Seitenangaben können komfortabel eingegeben und bearbeitet werden; am Ende erhält man den Index als eigenständige Datei in einem der üblichen Datei-Formate. Dedicated Indexing Software kann sowohl für die Registererstellung der Inhalte einzelner Dokumente als auch für Dokumentsammlungen eingesetzt werden.

Bei Dedicated Indexing Software steht die eigentliche Arbeit am Register stark im Vordergrund. Es gibt zahlreiche Eingabe-, Editier-, Formatier-, Sortier- und Kontroll-Optionen und -Features, die den Indexer von banalen Tätigkeiten befreien und statt dessen auf die inhaltliche Auswertung der Texte konzentrieren lassen und damit qualitativ hochwertige Registererstellung ermöglichen. Mulvany (1994, S. 272) verdeutlicht: “Perhaps one of the strongest features of this software is that the indexer can work with the index in sorted order at all times. … The structure of the index is constantly emerging and visible. The work area context is the index itself.”

Weitere Beispiele leistungsstarker Features sind die Auto Complete-Eingabe (spart sehr viel Eingabearbeit), der Einsatz von definierbaren Macros und Shortcuts, alternative Sortierreihenfolgen (z. B. nach der tatsächlichen Eingabe der Index-Einträge, nach Seitenzahlen, nach bestimmten Kriterien), die schnelle Umwandlung von Haupt- in Untereinträgen und umgekehrt, die Bearbeitung ganzer Gruppen von Indexeinträgen mit gleichen Kriterien sowie die automatische Überprüfung der Konsistenz von Querverweisen.

Dedicated Indexing Software ist in der weltweit führenden anglo-amerikanischen Indexing-Szene stark verbreitet. Mulvany (1994, S. 272): “Professional indexers find that the use of such software is the most cost effective way to work.” Die drei führenden Produkte sind CINDEX, Macrex und SKY Index, von denen auch kostenlose Demo-Versionen erhältlich sind. In Schroeder (2003, S. 1–79) gibt es Beschreibungen dieser und anderer Produkte.

 

Was ist Embedded Indexing Software?

Hierbei handelt es sich um Indexing-Module von Textverarbeitungs- und DTP-Programmen bis hin zu Publishing-Systemen mit Markup-Sprachen zur Indexierung der Inhalte einzelner Dokumente. Beispiele sind Microsoft Word, Adobe PageMaker und InDesign, QuarkXPress, etc. Diese nicht speziell für die Registererstellung entwickelten Programme sind hervorragend geeignet, um große Textmengen zu bearbeiten; ihre Indexing-Module lassen jedoch viele, von Indexern benötigte Features vermissen. Bisher gibt es kein Tool auf dem Markt, das die Vorteile von Dedicated und Embedded Indexing Software vereint. Mulvany (1994, S. 277–279) beschreibt eine derartige Vision.

Die einzelnen Index-Einträge werden mit sogenannten Index-Marken bzw. Tags im Originaltext eingebettet. Nachdem alle Index-Einträge derart eingefügt wurden, kann das Programm den Index mit zugehörigen Seitenzahlen generieren.

Ein großer Vorteil ist dabei, dass die zugehörigen Seitenangaben automatisch verwaltet werden und nicht vom Indexer eingegeben werden müssen. Doch diesem Vorteil stehen eine ganze Reihe von methodischen und technischen Nachteilen gegenüber, die Mulvany (1994, S. 255–271) beschreibt. Mauer (2003) weist ebenfalls auf die überwiegenden Nachteile bei der Benutzung hin. Die am häufigsten vorkommenden Nachteile sind:

  • das umständliche und zeitaufwändige Einfügen der einzelnen Indexeinträge im Originaltext
  • der Indexer sieht oft nur den eingefügten bzw. bearbeiteten Indexeintrag, muss also „im Dunkeln“ arbeiten, d. h. ohne Sicht auf den sich entwickelnden Index
  • Änderungen können nicht am fertigen Index, sondern nur an den vorhandenen Einträgen im Originaltext vorgenommen werden
  • keine automatische Überprüfung der Querverweise
  • bei Textabänderungen und -verschiebungen können eingefügte Indexeinträge abhanden kommen, was unvorhersehbare Auswirkungen auf die Struktur des Indexes haben kann

Mulvany (1999) hat die Performance verschiedener Embedded Indexing Software-Produkte getestet und dabei einige Verbesserungen festgestellt, wenn sich auch der Leistungsabstand zur Dedicated Indexing Software weiter vergrößert hat.

Embedded Indexing Software wird oft bei Publikationen eingesetzt, die mehrfach in veränderter bzw. aktualisierter Form oder in verschiedenen Medien (Cross-Media-Publishing) erscheinen, z. B. technische Dokumentationen. Dennoch liegt der Zeitaufwand der Index-Erstellung und -Bearbeitung mit Embedded Indexing Software nach Expertenschätzung etwa doppelt bis dreifach so hoch wie beim Einsatz von Dedicated Indexing Software. Dies ist der Grund, weshalb es viele Indexer bei einem Embedded Indexing-Projekt vorziehen, das Register mit Dedicated Software zu erstellen und erst anschließend die fertigen Index-Einträge einzubetten.

Ein Risiko beim Arbeiten mit Embedded Indexing Software ist, dass man sich nicht verleiten lassen darf, nur vorhandene Textwörter zu indexieren, da das Ergebnis eine Konkordanz wäre.

In Witzer (2003, S. 138–141) wird die Arbeit mit XML-Tools erwähnt, die eine semantische Anreicherung von eingebetteten Indexeinträgen ermöglichen. Dies eröffnet interessante Möglichkeiten für den Einsatz von kontrollierten Vokabularen, wenn auch der Aufwand des Einbettens bleibt.

 

Welche anderen Software-Optionen gibt es?

Thesaurus-Software (also Software zur Erstellung von Thesauri) kann sich durchaus auch zur Erstellung von Registern eignen, wenn auch etliche Features von Dedicated Indexing Software nicht vorhanden sein mögen und ggf. mehr Nachbearbeitung erforderlich ist (z. B. bei der Erstellung von Buchregistern). Fugmann (1999, S. 174–175) hat das Register zu diesem Buch mit Thesaurus-Software erstellt.

Relationale Datenbank-Systeme können eine stabile Plattform für Großprojekte (z. B. im Bereich der Enzyklopädie-Register) stellen, obwohl die programmiertechnische Vorbereitung nicht zu unterschätzen ist. Datenbanken werden auch hauptsächlich für die Indexierung sehr großer Dokumentsammlungen eingesetzt.

 

Ist automatische Registererstellung möglich?

Eine brauchbare, auch nur im Ansatz professionellen Ansprüchen genügende automatische Registererstellung, insbesondere im Bereich der Buchregister, existiert trotz vieler Bemühungen bislang nicht. Mulvany und Milstead (1994) haben einen kläglich gescheiterten Versuch ausführlich analysiert. Auch Lancaster (2003, S. 333–336) stellt im Bereich der Indexierung von Dokumentsammlungen fest, dass die automatische Indexierung stets schlechter abschneidet als menschliche Indexierer.

Mulvany (1994, S. 245) bezeichnet den Begriff „automatic indexing“ als Oxymoron, da die intellektuelle Erstellung eines Registers nichts Automatisches an sich hat. Fugmann (1999, S. 123–124) erläutert, „daß es unvorhersehbar ist, wie ein Mensch seine Ideen in Wörter kleiden wird. … Also ist die Formulierung eines sprachlichen Ausdrucks ein inhärent indeterminierter Prozeß.“ Die unbegrenzte Vielfalt der Ausdrucksmöglichkeiten lässt sich nicht in brauchbare Algorithmen fassen. Die Performance automatischer Indexierung ist laut Fugmann (ebenda) genauso schlecht wie die desolaten Ergebnisse automatischer Übersetzung.

The Chicago Manual of Style (2003, S. 757): “Computers and special indexing software can streamline the indexing process and substantially reduce the time required. No computer can produce a good index on its own, however; human intervention is always required.” Viele der Gründe entsprechen den bei der Freitextsuche erwähnten Problemen.

Konkordanzen – Auflistungen nur der in einem Dokument vorkommenden Wörter – lassen sich automatisch generieren; Konkordanzen sind aber kein Sachregister.

 

Entspricht die Freitextsuche einem Register?

Die Freitextsuche nach Themen in elektronischen Publikationen stellt keine, einem guten Sachregister gleichwertige Option dar. Bei frei formulierten Texten mit ihren beliebigen Ausdrucksmöglichkeiten kann die Freitextsuche oft weder das Synonym- noch das Homonymproblem zufriedenstellend lösen. Auch gibt es keine Unterscheidung zwischen signifikanten und beiläufigen Textpassagen. Ferner sind Querverweise zu verwandten und spezielleren Themen nicht vorhanden. Viele der gesuchten Informationen können durch den Such-Term gar nicht erst abgedeckt sein (da dieser verbal nicht vorkommt) und damit auch unauffindbar bleiben, während gleichzeitig die wichtigen Textpassagen umständlich aus den beiläufigen herausgesucht werden müssen. Fugmann (1999, S. 193–195) zählt die prinzipiellen Probleme auf.

Die Freitextsuche entspricht daher nicht einem Sachregister, sondern einer Konkordanz. Und wenn die Freitextsuche mehrere Dutzend oder gar Hunderte Fundstellen ergibt, so entspricht dies mehreren Dutzend oder Hunderten von undifferenzierten Seitenangaben eines Konkordanzeintrages.

Sinnvolle Einsatzmöglichkeiten der Freitextsuche sind z. B. die Suche nach speziellen Begriffen wie Personennamen oder auch die Suche nach Themen in elektronisch vorliegenden Registern.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
[Top]
 
Last update: 31.7.2006