Zum Inhalt gehen

Digitale Textverarbeitung

Die Zahl der elektronischen Textausgaben nimmt allmählich zu, im Internet sowohl als auf CD-ROM, es scheint jedoch alles ausschließlich in eine Richtung zu laufen, die die Möglichkeiten der digitalen Textverarbeitung bei Weitem nicht erschöpft.
Faksimile
Eine bildliche Wiedergabe der einzelnen Seiten einer alten Textausgabe ist gewiss historisch wertvoll, doch dies kann man kaum eine elektronische Textausgabe nennen, denn sie gibt keinen Zugang zum Text als solchem — weder zu den Wörtern, noch zu der Textgliederung. Man kann diese rein äußerliche Darstellung etwas ausbauen durch Datenbankmäßigen Speichern der Textgliederung und von Stichwörtern.
Volltextsuche
Die so genannte Volltextsuche geht einen Schritt weiter, indem sie den Text als Zeichenkette verarbeitet. So kann man nach verschiedenen Buchstabenreihen suchen. Die mächtigsten Versionen erlauben die Suche nach regulären Ausdrücken und erkennen syntaktisch einzelne Wörter.
Sprachbewusste Text-Engine
Über die Grenze der Buchstaben hinaus geht jedoch heute keine elektronische Textausgabe. Und doch ist der Buchstabe als graphisches Zeichen ein ziemliches Randphänomen, ein äußerlicher Bestandteil der graphischen Darstellung der Sprache. Eine sprachbewusste Text-Engine sollte mit allen sprachlichen Einheiten umgehen können. Die Sprache besteht in viel mehr als bloßen Buchstaben:
Sprache besteht aus Wortformen. So hat man im 19. Jahrhundert „noth“ geschrieben, wo man heute „Not“ schreibt. Eine sprachbewusste Text-Engine sollte die Wortform unabhängig von deren Schreibung erkennen können.
Sprache besteht aus Wörtern. Es gibt eine sprachliche Einheit „lieben“, die überall da auftritt, wo die Wortformen „liebe“, „liebst“, „liebt“, usw. vorkommen. Eine digitale Textausgabe mit Wort-Bewusstsein würde eine Suche nach dem Wort „lieben“ ermöglichen, in welcher Wortform es auch immer erscheint, in welcher Schreibung es auch immer erscheint. Außerdem gibt es zwischen Wörtern Verwandtschaften. So gibt es welche, die sich nur in der grammatikalischen Funktion unterscheiden, wie das Substantiv „Lieben“ und das Verb „lieben“. Es gibt darüber hinaus Beziehungen zwischen Wörtern aufgrund der Wortbildung, nämlich bei Ableitungen und Kompositionen („Liebhaber“, „liebenswürdig“,…)
Sprache besteht aus Sätzen, und zwar nicht nur als Reihe von Wörtern, sondern als eine syntaktische Einheit, die eine Baumstruktur bestimmt. Eine sprachbewusste Text-Engine sollte beispielsweise nach „weiß“ in Bezug auf „Haus“ suchen können und Treffer wie „ein weisses Haus“, „dem weißen, gerade erst erbauten Haus“ ausgeben, während alle Vorkommnisse von „weiß“, die nicht „Haus“ bestimmen, ignoriert werden.
Die Textstruktur sollte auch berücksichtigt werden. Sätze, Absätze und Textstücke sollten sowohl die Suche an sich als die Ausgabe der Fundstellen begrenzen können. Man sollte etwa nach allen einzelnen Sätzen suchen können, in denen die Wörter „Haus“ und „Baum“ vorkommen. Oder nach allen einzelnen Absätzen, in denen von „Ingrid“ und „Liebe“ gesprochen wird. Die Ausgabe der Fundstellen sollte nicht willkürlich geschnitten werden, sondern auf Wunsch aus vollen Sätzen, Absätzen oder gar Textstücken bestehen.
Man sieht ja, dass wir mit den gegenwärtigen Volltextausgaben nur die Oberfläche dessen gekratzt haben, was eine sprachbewusste Text-Engine werden kann.

S. dazu das Korpus in meiner experimentellen Website u-text.net.

Kommentar hinterlassen

Sie müssen sich anmelden, um einen Kommentar zu hinterlassen.