[1] Ernst Cassirer befasst sich in seinem berühmten Buch „Die Philosophie der Aufklärung“ (1932) eingehend mit der Methodenrevolution im 16., 17. und 18. Jahrhundert. Die eigentliche Grundlage dessen, was später „Aufklärung“ genannt wurde, ist diese Methodenrevolution, die das wissenschaftliche Erkennen der Bibel vorzog.
[2] Im Grundsatz ging es darum, zu erkennen, was ist – die Natur insgesamt und die Natur des Menschen im Besonderen. Der Weg dahin sollte über genaue Beobachtung führen, die zu beobachtenden Phänomene sollten bis in die kleinstmöglichen Einheiten zerlegt werden.
[3] Descartes war auf lange Sicht einflussreicher als Leibniz, Newton einflussreicher als alle anderen zusammen.
[4] Hinzukam die Mathematik, um Gesetzmäßigkeiten auszudrücken. Nur was mathematisch dargestellt/ausgedrückt werden konnte, konnte als wahr gelten.
[5] Hier interessiert nicht der Streit mit der Religion, der unausweichlich wurde, sondern der Umstand, dass die wissenschaftliche Methodik nicht nur eine für die Naturwissenschaften war, sondern generell für Wissenschaft, also auch für die später so genannten Geisteswissenschaften bzw. heute „Humanities“. Beide große Wissenschaftsfamilien entstanden gemeinsam als Wissenschaft.
[6] Cassirer verwendet gelegentlich in dem genannten Buch die lateinischen Begriffe „Datum“ und „Data“. Gemeint ist damit prinzipiell das, was wir heute als „Data“/„Daten“ bezeichnen, kleinste sinnvolle Einheiten, die wir erkennen und beschreiben können und aus denen wir mittels definierter Methoden Erkenntnis ziehen.
[7] Tatsächlich kann man sagen, dass die modernen Wissenschaften von Anfang an – als Anfang wird die Methodenrevolution genommen – als Datenwissenschaften gedacht wurden. Was immer analysiert wurde, wurde in seine „Data“ zerlegt. Analysieren heißt nichts anderes als in Daten zerlegen.
[8] Das trifft z.B. auch auf die in der frühen Neuzeit immer wichtiger werdende Textkritik und letztlich die entstehende historische Methode zu. So werden im 17. Jahrhundert die Texte der Bibel zerlegt. Je nachdem, wie diese Zerlegungsdaten betrachtet werden, zeigen sich die historischen Schichten der Texte, was wiederum der Annahme, es handele sich um offenbarte Texte, grundsätzlich widerspricht.
[9] Jede wissenschaftliche Analyse bedeutet Erzeugung von Daten, deren Beziehungen zueinander, untereinander bzw. deren Fehlen beschrieben wird.
[10] Das „Beschreiben“ ist nicht nur als Produktion eines wissenschaftlichen Textes zu verstehen, der die Analysen mitteilt, sondern kann genauso gut mathematisch geschehen, woran sich eine Visualisierung der Analyse anschließt.
[11] Bei all dem kann es um „Big Data“ gehen, muss es aber nicht. Kleine Datenmengen sind nicht weniger wichtig als große und riesige. Der Unterschied liegt eher darin, dass man mit der Analyse großer Datenmengen andere Fragen beantwortet, als mit der Analyse kleiner Datenmengen, wo gerne von qualitativer Analyse gesprochen wird.
[12] Große Datenmengen erlauben es, Muster zu erkennen, aber eben auch geringfügige Abweichungen innerhalb eines Musters. Nehmen wir als Beispiel die Krebserkennung, wo dies den lebensrettenden Unterschied ausmachen kann.
[13] In den historischen Kulturwissenschaften spielt der Eigensinn der Menschen und Gesellschaften, die analysiert werden, eine wichtige Rolle, etwas, das der Suche nach Mustern entgegen zu stehen scheint. Nun lässt sich Eigensinn eher erkennen, wenn auch Muster erkannt werden können. Wo immer eigentlich der Vergleich als Methode dahinter steckt, sind eher mehr als weniger Daten sinnvoll.
[14] Die Geistes- und Kulturwissenschaften (Humanities) unterscheiden sich nicht wegen der Daten von den Naturwissenschaften, das methodische Herkommen ist dasselbe. Sie unterscheiden sich eher dadurch, dass sie ihre im Zuge der Analysen produzierten Daten lange Zeit nicht als solche verstehen wollten und relativ spät mit deren umfassender Digitalisierung begonnen haben.
[15] Das ist ein aufholbarer Nachteil.
[16] Jede Wissenschaft ist zunächst einmal eine Datenwissenschaft und benötigt daher eine Wissenschaft von den Daten (Data Science). Datenwissenschaft ist mehr als „data mining“ usw. So erscheint „topic modeling“ als willkommene Erweiterung der (historischen) Semantik bzw. der handwerklichen Begriffsgeschichte. Es lässt sogar sehr viel feinere/differenziertere Analysen zu als die früheren Vorgehensweisen.
[17] Jede Wissenschaft braucht heute die Wissenschaft von den Daten. Da jede Wissenschaft eine Datenwissenschaft ist, liegt hier das Potenzial für eine Metawissenschaft. Gibt es auch Bereitschaft dazu, eine solche Metawissenschaft institutionell zu etablieren, und zwar so, dass sie tatsächlich fächerübergreifend arbeiten kann?
[18] Sicher ist der Nachholbedarf in den Humanities größer als in den Naturwissenschaften, in den Wirtschaftswissenschaften, in der Informatik, aber letztere müssen sich für die Humanities öffnen.
Data Science an der Universität Wien
Empfohlene Zitierweise (die Absätze sind in eckigen Klammern für Zitationszwecke nummeriert):
Wolfgang Schmale: Data Science – eine Metawissenschaft? In: Wolfgang Schmale: Blog „Mein Europa“, wolfgangschmale.eu/data-science-eine-metawissenschaft, Eintrag 19.03.2020 [Absatz Nr.].
(3) „Descartes war auf lange Sicht einflussreicher als Leibniz, Newton einflussreicher als alle anderen zusammen“, das überrascht auf den ersten Blick, und führt zur Frage, auf Basis welcher Quellen lässt sich das feststellen? Selbst der Ngram Viewer ermöglicht nur eine Analyse der Menge an Quellen, aber nicht deren Einfluss.
(11)(12) Zerteilen von Daten / kleine und große Datenmengen -> Besteht nicht dennoch zwischen quantitativer und qualitativer Analyse ein fundamentaler Unterschied? Anders ausgedrückt, soll quantitative Analyse als Begriff (nur) für große Datenmengen, qualitative Analyse (nur) für kleine Datenmengen verwendet werden? Sicher sind die Analyseergebnisse großer Datenmengen selbsterklärender als jene von kleinen Datenmengen, braucht es nicht dennoch in beiden Fällen die qualitative Analyse der (rein) quantitativen Erkenntnisse, alleine um einen intersubjektiven Wissenschaftskonsens überhaupt erst zu ermöglichen? Auch wissenschaftliche Studien in der Onkologie lassen die rein quantitativen Ergebnisse nicht für sich stehen, in der Hoffnung, dass sie die gesamte Wissenschaftswelt gleich versteht, sondern die Ergebnisse müssen interpretiert und zur Fachdiskussion zur Verfügung gestellt werden.
(16) Topic Modeling -> es wäre sehr interessant, hier mehr zu erfahren, nicht nur über die Methode selbst, sondern auch über von der Geschichtswissenschaft bereits validierte Software.
Der Einfluss von Descartes versus Newton: Hier habe ich an Darstellungen zur Philosophie der Aufklärung wie z.B. Cassirer angeknüpft, der der Methodenfrage sehr große Aufmerksamkeit widmet. Man könnte einwenden, dass in solchen Werken nur eine Gipfelwanderung der bekanntesten Autoren absolviert wird und eine quantitative Untersuchung der Rezeption von Newton bzw. Descartes im 18. Jh. womöglich etwas anderes zutage fördern könnte.
Quantitativ/qualitativ: Je mehr ich darüber nachdenke, desto künstlicher kommt mir diese gewohnheitsmäßige Unterscheidung vor. In der Geschichtswissenschaft denken wir bei ‚qualitativ‘ wohl an die gründliche Auseinandersetzung mit der einzelnen Quelle, die viel Zeit erfordert. Das ändert sich damit, je mehr Quellen digital in Daten zerlegt oder zerlegbar werden; desto leichter kann ich größere Quellenmengen bearbeiten. Es bleibt aber eine qualitative Vorgehensweise.