TEI

Eine XML-Datei kann auf ein Schema zurückgreifen, das die „Grammatik“ vorgibt, d. h. welche Elemente gibt es und wie bzw. wo dürfen sie verwendet werden. Anhand dieses Schemas kann die Software überprüfen, ob das Dokument das Schema korrekt umsetzt (validiert) oder nicht.

Im Fall des Arbeitsvorhabens ediarum.BASE wird ein Schema auf Basis der TEI-P5-Richtlinie verwendet, die von der „Text Encoding Initiative“ (TEi) bereitgestellt wurde. Letztere arbeitet seit 1987 an diesen Richtlinien, die Elemente bereitstellen, mit denen u. a. Manuskripte ausgezeichnet bzw. beschrieben werden können. Die TEI ist also eine speziell für geisteswissenschaftliche Forschungsprojekte entwickelte Auszeichnungssprache. Anstelle bestimmter Formatierungen und Kürzel benutzt man entsprechende Elemente. Beispiele:

In bisheriger Druckausgabe TEI-basiertes XML
Proffessor
Pr<i>offessor</i>
außerdem] über der Zeile
<add place="superlinear">außerdem</add>

Wie im Beispiel zu sehen ist, werden die Textpassagen mit Hilfe der TEI semantisch ausgezeichnet, d. h. die Elemente tragen schon die Bedeutung der Auszeichnung in sich: So steht <i> für „italic“ (Kursivschreibung) und <add> für „addition“. Dadurch sind die Auszeichnungen unabhängig von ihrer späteren Formatierung. Beispiel:

ich konnte <hi rendition="#u">gänzlich</hi> nicht verstehen

Hier wird lediglich vermerkt, dass im Manuskript das Wort „gänzlich“ unterstrichen war. Ob im Druck oder im Web die entsprechende Stelle nun tatsächlich unterstrichen oder vielleicht eher gesperrt dargestellt wird, muss hier nicht entschieden werden.

Da die TEI für viele verschiedene Textsorten und Anwendungsfälle gedacht ist, umfasst sie sehr viel mehr Elemente als normalerweise in einem Projekt benötigt werden. Im Teuchos-Zentrum für Handschriften- und Textforschung an der Universität Hamburg wurde mit Hilfe der TEI eine Leitlinie erarbeitet, wie die unterschiedlichen Teile einer Handschriftenbeschreibung mit XML strukturiert und ausgezeichnet werden können. Von TELOTA wurde auf dieser Basis ein XML-Schema für die digitale Arbeitsumgebung entwickelt, gegen das die XML-Dokumente zukünftig validiert, d. h. geprüft werden können.

Der Baum eines TEI-kodierten XML-Dokuments besteht immer aus zwei Teilen: dem <teiHeader> und dem <text>. Während die eigentliche Handschriftenbeschreibung sich im letzteren befindet, werden im <teiHeader> Metaangaben zum XML-Dokument notiert. Die grobe Struktur eines TEI-kodierten XML-Dokuments sieht wie folgt aus:

Struktur Struktur in XML-Dokument
Metaangaben zum XML-Dokument
<teiHeader>
        <fileDesc>
            <titleStmt></titleStmt>
            <editionStmt></editionStmt>
            <publicationStmt>
                … [Angaben zum Herausgeber / zur Herausgeberin]
            </publicationStmt>
            <sourceDesc></sourceDesc>
        </fileDesc>
        <profileDesc></profileDesc>
    </teiHeader>
Text
   <text>
      <body>
          … [Eigentliche Handschriftenbeschreibung]
      </body>
   <text>
</TEI>