[1] Archive, Bibliotheken, Förderinstitutionen für die Wissenschaft, Universitäten – etc. – mobilisieren erhebliche Ressourcen für die Digitalisierung von Quellen. Der Digitalisierungsprozess hat Dynamik, er legitimiert sich scheinbar selbst durch diese Dynamik, die allenthalben begrüßt wird. Trotzdem sollte nicht vergessen werden, dass das kritische Nachfragen zum Wesen von Wissenschaft gehört.
[2] Das Digitalisieren von ‚analogen‘ Quellenbeständen entzieht sich als solches durchaus der Kritik. Es gibt überwiegend pro-Argumente: Schutz und Konservierung von gefährdeten Originalen; langfristig ökonomischer Umgang mit den Ressourcen Personal, Zeit und Geld; Erleichterung des Zugangs zu Quellen; Erleichterung des wissenschaftlichen Arbeitens und Forschens; Förderung transdisziplinären Arbeitens; potenziell Hebung von Standards beim öffentlichen Umgang mit Quellen sowie in der Ausbildung (Studium, Schule, Fortbildung); Sicherung des kulturellen Erbes; und mehr.
[3] Die Dynamik bezieht sich nicht nur auf das Digitalisieren von Quellen selbst, sondern auch auf die Entwicklung neuer Techniken und Arbeitsinstrumente. Es werden Programme entwickelt, die bei entsprechendem Training an unterschiedlichsten Originalquellen diverse historische Handschriften zunehmend korrekter transkribieren können, so dass im Idealfall in nicht mehr so ferner Zukunft das Einlesen handschriftlicher Quellen sozusagen roboterisiert werden kann. Die gewonnene Zeit kann für die Forschung eingesetzt werden.
[4] Hochauflösende Digitalisierungen ermöglichen Neuanalysen von Quellen, 3D-Digitalisierungen von Objekten eröffnen ein ganzes Bündel an Arbeitsweisen und Fragestellungen, auch in der Quantität liegt eine neue Qualität.
[5] Die Masse der Ressourcen wird dabei für Quellen, sprich für eine digitale Aufbereitung des, vereinfacht ausgedrückt, historisch-kulturellen Erbes aufgewendet. Ist es erlaubt, das kritisch zu sehen?
[6] Die Vergangenheit kennen wir immer genauer, allerdings rückt der Augenblick näher, wo wir vor zu viel Genau-kennen-und-wissen den Wald vor lauter Bäumen nicht mehr sehen werden, da die Makrostrukturen, die das nicht zuletzt dank der Digitalisierung von Quellen rapide anwachsende Detailwissen verknüpfen, noch nicht in der Form existieren, die nötig wäre. Das betrifft die Sache mit den DH-Max.
[7] Wichtiger noch ist der Umstand, dass die Ressourcen begrenzt sind und daher die Frage zu stellen ist, was an Primärquellenmaterial nicht digitalisiert wird, weil die Ressourcen nicht für alles ausreichen.
[8] Nach dem Zweiten Weltkrieg haben methodisch-theoretische Zugriffe wie Begriffsgeschichte, Linguistik auch für die historisch-kulturwissenschaftlichen Fächer, historische Semantik, Nationalismusforschung, Diktaturenforschung etc. ein besseres Erkennen, wie es zu den europäischen Diktaturen des 20. Jahrhunderts, wie es zum Rassenantisemitismus, wie es zu rassistischem Nationalismus kommen konnte, ermöglicht.
[9] Eigentlich sind die wissenschaftlichen Sensorien für die Rolle von Sprache bei der Etablierung, Implementierung und Verfestigung von Gewaltherrschaft entwickelt, aber ihre Leistungsfähigkeit endet nicht mit dem Erklären von Vergangenheit, sondern bezieht sich auch auf die Gegenwart.
[10] Wer an diesen Methoden und theoretischen Zugriffen geschult ist, kann bestimmten Rhetoriken der unmittelbaren Gegenwart und Jetztzeit nur mit wachsender Sorge begegnen. Aber muss zugewartet werden, bis wieder nach tödlichen Verwerfungen aus der Rückschau analysiert und Erkenntnis produziert werden kann? Oder wäre es nicht sinnvoller, die wissenschaftlichen Analysen geschehensbegleitend auszuführen?
[11] Dazu müssen jetzt und in diesen Augenblicken entstehende Quellen digitalisiert werden bzw. müssen diese Quellen, die oft schon in digitalen Formaten vorliegen, mit den adäquaten grundwissenschaftlichen Methoden aufbereitet und für die Forschung zugänglich gemacht werden. Jeder kann im Internet surfen und sich was zusammensuchen, auch für wissenschaftliche Zwecke, aber es geht um mehr systematisches Zusammenstellen von, die Jetztzeit begleitenden, Quellen und deren grundwissenschaftliche Behandlung sozusagen in Echtzeit.
[12] Warum? Es geht um die unterschiedlichsten Diskurse und Rhetoriken international und europäisch. Derzeit wird die Öffentlichkeit mit politischen Wortspenden zu Flüchtlingen, Grenzen, Freiheit, Terrorismus usw. geflutet. Genau genommen liegt das meiste auch digital vor, aber es wird nicht in dem Sinne ‚digitalisiert‘, dass es quellenkritischen Ansprüchen genügt, was wiederum Voraussetzung für wissenschaftliche Forschung ist.
[13] Warum wäre es gut, hier Ressourcen in die ‚Digitalisierung‘ zu investieren? Vielleicht muss ja demnächst erklärt werden, wie es kommen konnte, dass in Europa die Freizügigkeit wieder verloren ging, dass die EU scheiterte, dass Flüchtlinge nicht nur im Mittelmeer zu Tausenden ertranken, sondern auch auf den Fluchtruten über Land zu Tode kamen, dass überall ein Rückfall in das Autarkiedenken des Nationalismus die Staatlichkeit bestimmt?
[14] Wissenschaftliches Erkennen und Erklären kann sich nicht nur auf die Vergangenheit beziehen, auch nicht in den historischen Kulturwissenschaften. Diese gewinnen ihre Fragestellungen aus der Gegenwart und richten sich folglich an die Gegenwart. Nicht nur Soziologie, Politikwissenschaft, Psychologie und andere Fächer sind Humanwissenschaften, die überwiegend die Gegenwart analysieren und tendenziell zur Vorbeugung beitragen können, sondern dasselbe gilt auch für die historischen Kulturwissenschaften, die Teil der großen Fächergruppe der Humanwissenschaften sind.
[15] Es geht um das Vorbeugen mittels wissenschaftlicher Analyse. Die historischen Kulturwissenschaften bringen den Vorteil mit sich, dass sie nicht mit Laborversuchen arbeiten, sondern mit Quellenmaterial, das hier oder dort, heterogen und disparat entstanden ist, jedenfalls nicht in der Versuchsanordnung des Labors, umgehen können. Solches Quellenmaterial entsteht jederzeit, auch jetzt, gerade in diesem Augenblick, und könnte grundwissenschaftlich aufbereitet in Forschungsdatenbanken aufgenommen werden (alle multimedialen Quellen, die laufend produziert werden) – dies ist ein erweitertes Verständnis von ‚Digitalisierung‘.
[16] Gegenständlich handelt es sich um die Berichterstattung verschiedener audiovisueller Medien, Reden, Diskurse, die an unterschiedlichen Stellen zumeist digital zugänglich sind, bezeugendes Quellenmaterial, das Privatpersonen (oft TeilnehmerInnen der Zivilgesellschaft) mit Ihren Smartphones erstellen, usw. usf.
[17] Es ließen sich semantische Analysen von Begriffen, Bildern, Metaphern, von Bedeutung produzierenden syntaktischen Konstruktionen, von beginnenden Diskursen liefern, die in Echtzeit jene Dekonstruktion ermöglichen, die wir so intensiv auf die Vergangenheit anwenden. Die „gesellschaftliche Konstruktion der Wirklichkeit“, die oft eine Wirklichkeitskonstruktion bestimmter Macht innehabender sozialer Gruppen und nicht der Gesellschaft ist, ließe sich in Echtzeit auseinandernehmen. Wäre es gut, genau zu erkennen, welche Wirklichkeit da vor unseren Augen gerade konstruiert wird, mit der wir uns in naher Zukunft dann als „objektiver Wirklichkeit“ mit all ihrem Zwangsapparat werden auseinandersetzen müssen?
[18] Es kann eingewendet werden, dass es die gemeinte Forschung durchaus gibt. So wurde die Rhetorik des verstorbenen österreichischen Rechtspopulisten Jörg Haider in Echtzeit erforscht, aber es geht in Wirklichkeit um eine ganz andere, eben auch quantitative Dimension. Die medial durchdringende Rhetorik herausgehobener Einzelpersonen bewirkt einiges, ein gesellschaftlicher Diskurs, der in die Wirklichkeitskonstruktion eingebettet ist, ist aber unendlich komplexer und bedarf einer sehr breiten Quellengrundlage, die am besten so im erweiterten Wortsinn von ‚Digitalisierung‘ grundwissenschaftlich bearbeitet ‚digitalisiert‘ werden, dass Big-Data-Analysen möglich werden. Andernfalls würde man wieder bei vermeintlich exemplarischen Einzelfällen und der ausschließlich qualitativen Analyse landen.
[19] Big Data meint hier ausdrücklich nicht in erster Linie ‚soziale Medien‘, an denen Big-Data-Analysen ohnehin durchgeführt werden, sondern es bezieht sich auf eine Struktur des Quellenmaterials, die sich durch Heterogenität und Disparität ‚auszeichnet‘, und das ausdrücklich nicht durch vorgegebene Datenstrukturen bzw. -strukturierungen wie in ‚sozialen Medien‘ schon vorbereitet ist.
[20] Da die Ressourcen begrenzt sind, sollte man daher darüber nachdenken, ob nicht mehr davon auf ‚Digitalisierungen‘ im erweiterten Wortsinn verwendet werden müssten. Langfristig steckt hierin kein Gegensatz zur jetzigen Praxis der Digitalisierung des historisch-kulturellen Erbes, da die Quellen der Jetztzeit alsbald ohnehin kulturelles Erbe geworden sein werden. Aber für den Augenblick steckt darin ein Konflikt, da Ressourcen auf andere Prioritäten umgelenkt werden müssten.
Dokumentation:
Der Blogeintrag führt eine auf H-Soz-Kult begonnene Diskussion weiter und führt Gedanken, die ich dort in meinem Kommentar sehr zurückhaltend skizziert habe, deutlicher aus.
Empfohlene Zitierweise (die Absätze sind in eckigen Klammern für Zitationszwecke nummeriert):
Wolfgang Schmale: Digitalisieren wir eigentlich das Richtige? In: Wolfgang Schmale: Blog „Mein Europa“, wolfgangschmale.eu/digitalisieren-wir-eigentlich-das-richtige, Eintrag 23.11.2015 [Absatz Nr.].
„Lasst uns ’streiten‘!“ schrieben Sie auf Twitter – ob meine Meinung als BA-Student dafür als valide genug gilt, weiß ich nicht, aber ich werde Ihrer Einladung trotzdem Folge leisten, da sich bisher offenbar sonst niemand traut.
In diesem Sinne:
„Big Data“ scheint sich für mich zunehmend zu einer Art Zauberwort zu entwickeln, das analog zum guten alten „Abrakadabra“ eine komplexe Wirklichkeit auf wundersame Art und Weise in leicht verdauliche „Fakten“ verwandeln soll.
Natürlich sind die verwendeten Techniken und Werkzeuge erwiesenermaßen ein leistungsfähiges Instrument der statistischen Analyse, doch die in der Geschichte erstmalige Möglichkeit ihres Einsatzes hat nichts „magisches“ – das Ausmaß an menschlicher Arbeit, die investiert werden muss, um Massendatenquellen automationsunterstützt zu erschließen, ist gewaltig. Die Kosten für solche Unternehmungen werden nicht zufällig typischerweise aus den Budgets von Staaten und internationalen Konzernen bestritten.
Der Vorschlag, beispielsweise den sogenannten öffentlichen Diskurs von den klassischen audiovisuellen Medien bis hin zu individuellen Meinungsäußerungen im Internet abzubilden und statistisch auszuwerten, ist zweifellos spannend. Doch sollte man nicht vergessen, dass zuerst die Datensammlung selbst kuratiert (nach welchen Stichworten werden Daten gesammelt, bis in welche Ebene wird Verknüpfungen nachgegangen, welche nichtschriftlichen Quellen werden händisch erfasst, …) und der entsprechende IT-Apparat geschaffen und erhalten werden muss, bevor „die Daten“ überhaupt als Quelle vorliegen.
Danach fangen die Probleme erst richtig an, denn es handelt sich bei den gesammelten Daten, anders als bei Anruferdaten, Bewegungsprofilen, Kaufverhalten etc. nicht um faktische, sondern verbale Quellen. Um beispielsweise einen Diskurs darzustellen, müssen die Daten nun zu großen Teilen händisch durchforstet werden, um Einteilungen vorzunehmen; Sarkasmus, Ironie, Doppeldeutigkeiten, (für menschliche Betrachter) offensichtliche Unaufrichtigkeiten, Ausweichungen, missverständliche Formulierungen, rhetorische Bedienung der Formulierungen des „Gegners“ usw. stellen eine für automatische Datenverarbeitung nicht erkennbare Norm, und keineswegs nur eine Ausnahme, menschlicher Kommunikation dar – und dies ist nur eines von mehreren praktischen Problemfeldern, die mir spontan einfielen. Es müssten also im Falle eines kleinen Sammelraums wie Österreich bereits Millionen von Datensätzen manuell nachbearbeitet werden, bevor man auch nur die „Seiten“ des Diskurses statistisch sinnvoll darstellen kann, was eine vergleichsweise triviale Aufgabenstellung wäre.
Ob der dafür notwendige Resourcen-Aufwand überhaupt in Reichweite universitärer Mittel (oder denen anderer Forschungseinrichtungen) liegt, sei dahingestellt. Ob es angesichts real sinkender Forschungs- und Bildungsbudgets Sinn macht, diesen Aufwand zum jetzigen Zeitpunkt zu treiben, bezweifle ich persönlich stark.
Ich stimme Ihrer Analyse vollkommen zu, die den tatsächlichen Aufwand auch sehr plastisch macht. Um so mehr muss man darüber nachdenekn, wohin die verknappten Ressourcen eigentlich gehen und ob man diese nicht anders widmen müsste.
Das Institut für Deutsche Sprache (IDS) in Mannheim sammelt laufend und systematisch texte aus eine vielzahl von quellen für linguistische zwecke (siehe http://www1.ids-mannheim.de/kl/projekte/korpora/). Das ist Ihrem vorschlag gar nicht unähnlich. Bei nachrichtentexten etwa ist es offensichtlich, dass sie sowohl für linguisten als auch für historiker interessant sind, aber auch viele andere textsorten sind für verschiedene forschungsgebiete interessant, so dass man sich vorstellen könnte, idealerweise gemeinsam korpora aufzubauen.
Leider gibt es mit den immer weiter ausgebauten urheber- und leistungsschutzrechten große hindernisse für die forschung. Das IDS darf die texte nur intern und mit einschränkungen für seine forschung nutzen und in veröffentlichungen nur beispiele bis zu einer jeweils vertraglich bestimmten länge verwenden. Obwohl dadurch auch bestimmte linguistische phänomene nicht untersucht werden können, kann man in der linguistik mit diesen einschränkungen noch leben. Für die historische forschung wären solche einschränkungen nicht praktikabel. Das problem beginnt also weit vor der frage, welche elektronischen quellen archivierungswürdig sind, welcher aufwand dafür nötig wäre und wer das machen müsste.
Für geschichts- und kulturwissenschaftliche Analysen reicht es nicht aus, das sehe ich ebenso. Die Urheberrechtsbeschränkungen verhindern bis zu einem gewissen Grad Forschung – es ist daher der Gesetzgeber gefragt. Die Ressourcenfrage bleibt weiterhin offen, insofern ist die Frage, ob wir das Richtige digitalisieren, im Zentrum, da man die begrenzten und nicht beliebig vermehrbaren Ressourcen u.U. von dem einen abziehen und dem anderen zuweisen müsste. Das würde in weiterer Konsequenz entstandene Dynamiken behindern – aber sind alle Dynamiken wirklich sinnvoll, möchte ich unverdrossen fragen!