Die folgenden Fragen versuchen, die wichtigsten Aspekte und Problembereiche der verschiedenen Software-Optionen, die es auf dem Markt gibt, zu beleuchten. Tools verschiedener Art können auch in Kombination eingesetzt werden.
Inhalt der Seite
Was ist Dedicated Indexing Software?
Dies ist eigenständige, speziell für die Indexerstellung entwickelte Software, die unabhängig von den zu indexierenden Text-Dateien benutzt wird (aber nichts mit „automatischer“ Registererstellung zu tun hat). Index-Einträge, Querverweise und Seitenangaben können komfortabel eingegeben und bearbeitet werden; am Ende erhält man den Index als eigenständige Datei in einem der üblichen Datei-Formate. Dedicated Indexing Software kann sowohl für die Registererstellung der Inhalte einzelner Dokumente als auch für Dokumentsammlungen eingesetzt werden.
Bei Dedicated Indexing Software steht die eigentliche Arbeit am Register stark im Vordergrund. Es gibt zahlreiche Eingabe-, Editier-, Formatier-, Sortier- und Kontroll-Optionen und -Features, die den Indexer von banalen Tätigkeiten befreien und statt dessen auf die inhaltliche Auswertung der Texte konzentrieren lassen und damit qualitativ hochwertige Registererstellung ermöglichen. Mulvany (1994, S. 272) verdeutlicht: “Perhaps one of the strongest features of this software is that the indexer can work with the index in sorted order at all times. … The structure of the index is constantly emerging and visible. The work area context is the index itself.”
Weitere Beispiele leistungsstarker Features sind die Auto Complete-Eingabe (spart sehr viel Eingabearbeit), der Einsatz von definierbaren Macros und Shortcuts, alternative Sortierreihenfolgen (z. B. nach der tatsächlichen Eingabe der Index-Einträge, nach Seitenzahlen, nach bestimmten Kriterien), die schnelle Umwandlung von Haupt- in Untereinträgen und umgekehrt, die Bearbeitung ganzer Gruppen von Indexeinträgen mit gleichen Kriterien sowie die automatische Überprüfung der Konsistenz von Querverweisen.
Dedicated Indexing Software ist in der professionellen Indexing-Szene stark verbreitet. Mulvany (1994, S. 272): “Professional indexers find that the use of such software is the most cost effective way to work.” Die drei führenden Produkte sind CINDEX™, Macrex™ und SKY Index™, von denen auch kostenlose Demo-Versionen erhältlich sind. In Schroeder (2003, S. 1–79) werden diese und andere zum Indexing eingesetzten Programme beschrieben und miteinander verglichen.
Was ist Embedded Indexing Software?
Hierbei handelt es sich um Indexing-Module von Textverarbeitungs- und DTP-Programmen bis hin zu Publishing-Systemen mit Markup-Sprachen zur Indexierung der Inhalte einzelner Dokumente. Beispiele sind Microsoft Word, Adobe InDesign und Adobe FrameMaker, QuarkXPress, etc. Diese nicht speziell für die Registererstellung entwickelten Programme sind hervorragend geeignet, um große Textmengen zu bearbeiten; ihre Indexing-Module lassen jedoch viele, von Indexern gewünschte Features vermissen. Bis 2012 gab es kein Tool auf dem Markt, das die Vorteile von Dedicated und Embedded Indexing Software vereinte. Mit dem Erscheinen des Index-Managers hat sich das grundlegend geändert. Der Index-Manager basiert auf XML und erlaubt u. a. die direkte Bearbeitung eines Registers, wobei sämtliche Änderungen automatisch an die einzelnen Indexmarken übergeben werden. Das Programm ist so etwas wie ein Vermittler zwischen dem Index und dem Textverarbeitungs- oder Layoutprogramm, in dem die Indexmarken eingebettet sind. Wie Dedicated Indexing Software muss der Index-Manager zusätzlich erworben werden. Effektiv verwenden lässt er sich nur nach einer Schulung.
Nachfolgend werden die Eigenschaften und Eigenheiten des Embedded Indexing ohne den Einsatz des Index-Managers beschrieben.
Die einzelnen Index-Einträge werden mit sogenannten Index-Marken bzw. Tags im Originaltext eingebettet. Nachdem alle Index-Einträge derart eingefügt wurden, kann das Programm den Index mit zugehörigen Seitenzahlen generieren.
Die Vorteile des Embedded Indexing sind:
- Die Seitenangaben werden automatisch verwaltet und müssen nicht vom Indexer eingegeben werden.
- Bei Umbruchverschiebungen werden die Seitenzahlen im Register automatisch nachgeführt.
- Die eingebetteten Index-Marken können bei späteren Ausgaben der Publikation (etwa einer Neuauflage) wiederverwertet werden.
Diesem Vorteilen stehen einige methodische und technische Nachteile gegenüber, die z. B. von Mulvany (1994, S. 255–271) beschrieben werden. Die am häufigsten genannten Nachteile sind:
- Der Fokus liegt auf dem einzelnen Indexeintrag, die parallele Sicht auf den sich entwickelnden Index ist standardmäßig nicht vorgesehen.
- Änderungen können nicht am fertigen Index, sondern nur an den vorhandenen Einträgen im Originaltext vorgenommen werden.
- Eine automatische Überprüfung der Querverweise ist nicht möglich.
- Seitenbereichsangaben können nur auf umständliche Weise vorgenommen werden.
- Bei Textabänderungen und -verschiebungen können eingefügte Indexeinträge abhanden kommen, was unvorhersehbare Auswirkungen auf die Struktur des Indexes haben kann.
Embedded Indexing Software wird oft bei Publikationen eingesetzt, die mehrfach in veränderter bzw. aktualisierter Form oder in verschiedenen Medien (Cross-Media-Publishing) erscheinen, z. B. technische Dokumentationen. Hier gibt es oft keine Alternative zu diesem Indexing-Verfahren.
Professionelle Indexer, die den Umgang mit Dedicated Indexing Software gewohnt sind, ziehen es vor, bei einem Embedded Indexing-Projekt, das Register mit Dedicated Software zu erstellen und erst anschließend die fertigen Index-Einträge einzubetten.
Ein Risiko beim Arbeiten mit Embedded Indexing Software ist, dass man sich nicht verleiten lassen darf, nur vorhandene Textwörter zu indexieren, da das Ergebnis eine Konkordanz wäre.
In Witzer (2003, S. 138–141) wird die Arbeit mit XML-Tools erwähnt, die eine semantische Anreicherung von eingebetteten Indexeinträgen ermöglichen. Dies eröffnet interessante Möglichkeiten für den Einsatz von kontrollierten Vokabularen, wenn auch der Aufwand des Einbettens bleibt.
Welche anderen Software-Optionen gibt es?
Tabellenkalkulationsprogramme wie Microsoft Excel oder OpenOffice Calc können zur Registererstellung eingesetzt werden, nachdem die Arbeitsblätter entsprechend vorbereitet wurden. Wichtig ist die Aufstellung eines Plans für die benötigten Felder, die Entwicklung einiger Textfunktionen und der Einsatz von Makros.
Relationale Datenbank-Systeme können eine stabile Plattform für Großprojekte (z. B. im Bereich der Enzyklopädie-Register) stellen, obwohl die programmiertechnische Vorbereitung nicht zu unterschätzen ist. Datenbanken werden auch hauptsächlich für die Indexierung sehr großer Dokumentsammlungen eingesetzt.
Auch Thesaurus-Software (also Software zur Erstellung von Thesauri) kann durchaus zur Erstellung von Registern verwendet werden, wenn auch etliche Features von Dedicated Indexing Software nicht vorhanden sein mögen und ggf. mehr Nachbearbeitung erforderlich ist.
Ist automatische Registererstellung möglich?
Eine brauchbare, auch nur im Ansatz professionellen Ansprüchen genügende automatische Registererstellung, insbesondere im Bereich der Buchregister, existiert trotz vieler Bemühungen bislang nicht. Mulvany und Milstead (1994) haben einen kläglich gescheiterten Versuch ausführlich analysiert. Auch Lancaster (2003, S. 333–336) stellt im Bereich der Indexierung von Dokumentsammlungen fest, dass die automatische Indexierung stets schlechter abschneidet als menschliche Indexierer.
Mulvany (1994, S. 245) bezeichnet den Begriff „automatic indexing“ als Oxymoron, da die intellektuelle Erstellung eines Registers nichts Automatisches an sich hat. Fugmann (1999, S. 123–124) erläutert, „daß es unvorhersehbar ist, wie ein Mensch seine Ideen in Wörter kleiden wird. … Also ist die Formulierung eines sprachlichen Ausdrucks ein inhärent indeterminierter Prozeß.“ Die unbegrenzte Vielfalt der Ausdrucksmöglichkeiten lässt sich nicht in brauchbare Algorithmen fassen. Die Performance automatischer Indexierung ist laut Fugmann (ebenda) genauso schlecht wie die desolaten Ergebnisse automatischer Übersetzung.
The Chicago Manual of Style (2003, S. 757): “Computers and special indexing software can streamline the indexing process and substantially reduce the time required. No computer can produce a good index on its own, however; human intervention is always required.” Viele der Gründe entsprechen den bei der Freitextsuche erwähnten Problemen.
Konkordanzen – Auflistungen nur der in einem Dokument vorkommenden Wörter – lassen sich automatisch generieren; Konkordanzen sind aber kein Sachregister.
Entspricht die Freitextsuche einem Register?
Die Freitextsuche nach Themen in elektronischen Publikationen stellt keine, einem guten Sachregister gleichwertige Option dar. Bei frei formulierten Texten mit ihren beliebigen Ausdrucksmöglichkeiten kann die Freitextsuche oft weder das Synonym- noch das Homonymproblem zufriedenstellend lösen. Auch gibt es keine Unterscheidung zwischen signifikanten und beiläufigen Textpassagen. Ferner sind Querverweise zu verwandten und spezielleren Themen nicht vorhanden. Viele der gesuchten Informationen können durch den Such-Term gar nicht erst abgedeckt sein (da dieser verbal nicht vorkommt) und damit auch unauffindbar bleiben, während gleichzeitig die wichtigen Textpassagen umständlich aus den beiläufigen herausgesucht werden müssen. Fugmann (1999, S. 193–195) zählt die prinzipiellen Probleme auf.
Die Freitextsuche entspricht daher nicht einem Sachregister, sondern einer Konkordanz. Und wenn die Freitextsuche mehrere Dutzend oder gar Hunderte Fundstellen ergibt, so entspricht dies mehreren Dutzend oder Hunderten von undifferenzierten Seitenangaben eines Konkordanzeintrages.
Sinnvolle Einsatzmöglichkeiten der Freitextsuche sind z. B. die Suche nach speziellen Begriffen wie Personennamen oder auch die Suche nach Themen in elektronisch vorliegenden Registern.