Briefe Digitalisieren – Dennis Schmolk

Nachdem ich die alten Familienbriefe von 1953/54 ganz gerne digital verfügbar hätte, muss ich mich an den Scanner setzen. Die erste Frage ist: Wie bereite ich das auf, sodass ich es auch softwaregestützt auswerten kann? Und daran anschließend: Welche Software will ich überhaupt verwenden?

Das Folgende ist dabei eher als Notiz für mich bzw. methodischer Überblick für meine Hausarbeit zu verstehen – nicht als Tutorial oder Anleitung, auch wenn ich mich (wie immer bei solchen Artikeln) freue, wenn es jemandem nützt.

Contents

1 Scannen
2 Digitalisierung: OCR-PDFs pro Monat der Korrespondenz
3 Software: Vercoden und auswerten
4 Aufbereitung
5 Wofür braucht man überhaupt Software?
6 Wie vercodet man das?
7 Ausblick

Scannen

Scannen läuft per NAPS2, weil ich das gerne benutze. Vermutlich geht aber auch jedes andere Scan-Programm, das direkt OCR ausführen und PDF exportieren kann. In Spanien nutzt man übrigens Folio-Papier, das ist 215 mm x 315 mm groß; statt 210mm x 297mm wie bei A4. Und meine Oma schrieb meist auf Letter-Size (215,9 x 279,4 mm). Meist klappt das dennoch, da selten wirklich alles vollgeschrieben ist.

Meine Einstellungen: 220 x 303 mm, Graustufen (s/w lieferte keine überzeugenden Resultate), 200 bzw. 300 dpi, Kontrast 90. In einigen Tests waren 300 dpi nicht besser von der OCR als 200, allerdings teilweise besser direkt lesbar. Die Dateigröße ist aber deutlich höher.

Im Zeitverlauf werden es übrigens zusehends weniger handschriftliche Briefe, das Maschinenschreiben hat sich eingegrooved. Praktisch. Leider bleibt die Papierqualität teils furchtbar, denn Durchschlagpapier wog weniger — wichtig, um Porto zu sparen (das aber anscheinend meist sowieso Omas Arbeitgeber, die amerikanische Versicherung IASA, bezahlte).

Das Scannen dauert eine gewisse Weile, aber man kann nebenher z.B. das neue Avishai Cohen-Album hören. Oder Scarface gucken. Oder die erste Staffel Narcos nochmal schauen und sich zurückversetzen ins Jahr 2015 – bei wenigen Serien ist mir so präsent, in welcher Wohnung und in welchen Situationen ich sie zum ersten Mal geguckt habe.

Digitalisierung: OCR-PDFs pro Monat der Korrespondenz

Das Resultat sind nun PDFs mit je einem Monat der Korrespondenz. Die maschinengeschriebenen Briefe sind relativ gut durchsuchbar, die OCR-Ergebnisse waren zufriedenstellend. Allerdings haben die Schreibmaschinen gewisse Eigenheiten gehabt: Mal rutschen alle hochgestellten Zeichen eine halbe Zeile nach oben, mal ist das (teure!) Farbband zu blass geworden, mal hat der oder die Schreibende über den Rand hinweg getippt. In diesen Fällen scheiterte die Konvertierung in Text oft. Und das ist ein gewisses Problem, denn es sind viele Seiten: Insgesamt über 700, verteilt auf knapp 300 Briefe.

Die erste Auswertung ergibt folgende Verteilung:

Das eröffnet schon viele Interpretationsräume: Warum schrieb am Anfang meine Großmutter öfter, später mein Opa? Was besagen die kleinen Dellen in der Anzahl der Briefe und Seiten? Und: Fehlen uns Informationen – etwa, weil die Briefe kleiner wurden (was zu gleich vielen gescannten Seiten, aber viel weniger Zeichen führte)?

Software: Vercoden und auswerten

Experimentell habe ich mir mal eine MaxQDA-Lizenz beim Rechenzentrum der Uni Jena besorgt. Ich weiß noch nicht, ob das die Software meines Vertrauens wird, aber man kann es ja mal probieren. Alternativen:

Voyant: Webbasiertes Tool, das mit vielen Funktionen aufwartet, diese aber immer ein bisschen versteckt. Mindestens für einen ersten Überblick sehr niedrigschwellig. Einen guten Überblick über eine deutlich ältere Version des Programms gibt es in diesem 6-Minuten-Video.
QualCoder: Open-Sourceware, aber mit einem irgendwie abschreckenden Interface. (Dafür ist MaxQDA vielleicht etwas zu bunt …?) Ein ausführliches Tutorial mit Beispieldaten gibt’s hier.

Ich habe mir nur angesehen, was im Wikipedia-Vergleich ein einigermaßen neues Release aufzuweisen hatte und wo ich ohne Kosten an eine vollwertige Lösung kam. Daher fiel z.B. atlas.ti raus, obwohl ich deren „AI assisted Coding“ ja gerne mal ausprobieren würde. Ich möchte aber eigentlich keine Software mühsam mit Daten füttern, um dann nach dem Studium bzw. ohne Abo einfach den Zugriff zu verlieren …

Aufbereitung

Man könnte nun sehr viel Arbeit investieren, um aus den per OCR vertexteten Scans richtige Transkripte zu machen, also das falsch eingelesene zu korrigieren, die handschriftlichen Briefe manuell zu transkribieren etc. Vielleicht mache ich das irgendwann, aber für erste Analysen ist das vielleicht gar nicht so wichtig, da ca. 2/3 des Korpus maschinengeschrieben vorliegen. Häufigkeitsanalysen etc. kann man also schon ganz gut machen – sofern man dabei im Hinterkopf behält, dass es Phasen des Briefwechsels gibt, die dadurch unter den Tisch fallen, weil hier mehrheitlich handschriftlich korrespondiert wird. Hier muss man also Vorwissen und inhaltliche Interpretationen nutzen, um die rein technische Seite zu bewerten, und dann wiederum umgekehrt.

Da die Ausgangsqualität des Korpus also eher gering ist, muss man ein bisschen mehr Aufwand investieren. Zum Beispiel kann man in Voyant Tools Stoppwörter definieren – und diese Liste sollte all die Terme enthalten, die reine OCR-Fragmente sind (z.B. Einzelbuchstaben). Das sind 5-10 Minuten manuelles Suchen und in die Liste aufnehmen. Dafür wird man dann mit einer Wordcloud belohnt:

Und kann sich auch die Häufigkeit der Verteilung über Segmente des Korpus angucken:

Die Verteilung der Begriffe „Uhr“ und „Zeit“ über den Verlauf der Korrespondenz

Was ich ggf. noch machen werde, ist, den Korpus durch „PDF Sam Visual“ zu jagen und dabei folgendes zu tun:

Ein Gesamt-PDF des Korpus erstellen und als txt exportieren (geringere Dateifgröße für z.B. Voyant). [done]
Jeweils einen Teilkorpus „Oma“ und „Opa“ erstellen und als PDF und txt speichern. Leider fällt mir nicht ein, wie ich das einfacher hinbekomme als mich zwei Mal komplett durch die 700 Seiten zu klicken und die jeweils unpassenden Briefe zu eliminieren bzw. ein Gesamt-PDF umzusortieren, sodass man es in zwei Briefwechsel splitten kann.

Danach könnte man die entstandenen txt-Files natürlich wiederum korrigieren, vielleicht mittels einer Software wie Open Refine (Tutorial) oder einfach manuell. Das artet dann aber irgendwie schon wieder aus …

ChatGPT wäre auch passabel (Prompt „Please clean this up: …“), es wird z.B. aus

Du-bist fast 12 Stunden weg. So ganz richtig ist mir noch nicht. Ks ist schwerer als ich es gedacht habe, Aber ich tröste mich ‚damit, daß ’es alles für uns 3 ist, Wollen wir annehmen, daß es uns glückt, wir viel Geld verdienen ‚und wollen wir. uns darum freuen, daß wir disse Chance überhaupt haben, -=-- tart 3 Hast Du mich beim S noch Winken sehen? Ich glaube ich war der der einst er einzig Taschentuch in d Hand alles hatte als das Flugzeug fen. Ich lasse Dich aufstiege. inHoffente-

der folgende Text:

Du bist fast 12 Stunden weg. Es ist mir noch nicht ganz klar. Es ist schwerer als ich dachte. Aber ich tröste mich damit, dass es alles für uns drei ist. Lassen wir uns vorstellen, dass es uns gelingt, viel Geld zu verdienen, und freuen wir uns darüber, dass wir überhaupt diese Chance haben.

Hast du mich beim Start noch gewinkt gesehen? Ich glaube, ich war der Einzige, der ein Taschentuch in der Hand hatte, als das Flugzeug abhob. Ich habe dich aufsteigen lassen.

Der Sinn ist klar verändert, aber ggf. für einige Analysen brauchbar.

Wofür braucht man überhaupt Software?

Generell: Durch so ein Programm habe ich ein einfaches Interface, um die PDFs zu importieren, en bloc durchsuchbar zu machen und Inhalte strukturiert zu markieren. Außerdem kann man z.B. Zeichnungen in den Briefen, „ASCII-Art“ (Küßchen!) etc. als solche auszeichnen und wiederfinden. (Natürlich nicht sinnvoll in txt-Files, nur in den PDFs.)

Das alles macht allerdings sehr, sehr viel Arbeit, quasi ein Fass ohne Boden. Oder, wie es in Christa Hämmerles und Ingrid Bauers „Liebe Schreiben“ heißt: „Andererseits war die systematische Erfassung der Bestände mittels Atlas.ti dermaßen zeitintensiv, dass eine umfassende Anwendung […] an Grenzen stieß.“ Mit anderer Software geht das vermutlich nicht schneller, zumal, wenn man nur einen Teil des Textes maschinenlesbar vorliegen hat.

Wenn man annimmt, dass jede gescannte Seite 10 Minuten fürs Vercoden braucht (optimistisch), dann wären das 7000 Minuten gleich 117 Stunden gleich 14,5 Arbeitstage á 8 Stunden. Für eine Masterarbeit wäre es mir diesen Aufwand wert, für eine Hausarbeit nicht. Also mal sehen.

Wie vercodet man das?

Ich vermute, wie so oft, dass man sich ingesamt viel Arbeit ersparen kann, wenn man vorher ordentlich nachdenkt – also einen sinnvollen, auf die Forschungsfrage abgestellten Code entwickelt. Erste Ideen, wonach ich am Ende auswerten können möchte:

Politik
- Deutschland
- Spanien
- Welt
Geschlecht
- Männerrolle
- Frauenrolle
- Deckung mit Tradition
- Abweichung zur Tradition
- Sexualität
Emotionen
- Zuneigung, Freude
- Wut
- Enttäuschung/Trauer
- Sehnsucht
- …
Paar-Idiom
- Kosenamen
- „suesser“, „suesses“ etc.
Alltag
- Organisation
- Planung
- Finanzen
Non-emotionaler Liebescode
- „Tagebuch“
- Kreativität

Und dann würde ich das natürlich gerne auch kombinieren, etwa „Emotion/Trauer“ und „Politik/Berlin“ anlässlich des Todes von Ernst Reuter im September 1953. Einige Code-Ideen finden sich auch im schon erwähnten Buch „Liebe schreiben“.

Ausblick

Im „Handbuch Brief“ schreibt Anne Baillot zum Thema Brief-Digitalisierung:

[E]in Scan im pdf-Format [ist] eine digital gesehen äußerst informationsarme Ressource, ein digitales Waisenkind. Der etablierte Standard, der es am ehesten möglich macht, dass Briefdaten in Verbindung mit einander gesetzt werden können, sind die von der Text Encoding Initiative etablierten Richtlinien (TEI-P5, vgl. TEI Consortium 2019).

Diese Spezifikation geht wieder in Richtung des Traums einer vollständigen digitalen Weltverdoppelung, indem z.B. per Metadaten der Briefe so gespeichert werden können, dass man auch nach Jahrhunderten noch Korrespondenzen aus aller Welt über beteiligte Personen zusammenführen kann. (Soweit ich das sehe, klappt das in Sachen Genealogie bislang auch nur so halb, aber kann ja alles noch werden.)

Auch dieser Ausblick bestätigt mich darin, nicht zu viel Energie und Zeit in die jetzige, erste Digitalisierung zu stecken – vermutlich wird man, wenn man daran weiterarbeiten will, sowieso nochmal ranmüssen. Aber dem wende ich mich dann nach der Hausarbeit zu.

4 Kommentare zu „Briefe Digitalisieren“

Mike und emmi
22. Mai 2023 um 14:49 Uhr
wenn ich da mal Hilfe brauche, weiß ich ja, an wen ich mich wenden kann …
Antworten
Pingback: SS23/W08: Deutschlandticket (again), Fanta und Vertragstheorie – Dennis Schmolk
Pingback: SS23/W10: Dresden, Happiness und Verdinglichung – Dennis Schmolk
Pingback: Links – Dennis Schmolk