Ziele und Methoden der quantitativen Linguistik
Überblick
Während die formalen Zweige der Linguistik nur die qualitativen mathematischen Mittel (Algebra, Mengenlehre) und die Logik benutzen, um strukturelle Eigenschaften von Sprache zu modellieren, befasst sich die quantitative Linguistik (QL) mit der Vielzahl der quantitativen Eigenschaften, die grundlegend sind für die Beschreibung und das Verständnis der Entwicklung und des Funktionierens von sprachlichen Systemen und ihren Elementen. Weder unterscheiden sich daher die Gegenstände der QL-Forschung von denen der anderen sprach- und textwissenschaftlichen Disziplinen, noch gibt es einen Unterschied in ihren erkenntnistheoretischen Interessen. Der Unterschied liegt vielmehr in der ontologischen Sichtweise (betrachten wir eine Sprache als eine Menge von Sätzen mit den ihnen zugeordneten Strukturen oder sehen wir sie als ein System, das in Analogie zu biologischen Organismen evolutionären Prozessen unterliegt, usw.) und folglich in den Konzepten, die die Grundlage der Disziplinen bilden. Unterschiede dieser Art machen die Fähigkeit eines Forschers aus, Elemente, Phänomene oder Eigenschaften auf seinem Forschungsgebiet zu erkennen - oder nicht. Ein Linguist, der gewohnt ist, in Form von Quantitäten, Wahrscheinlichkeiten und Tendenzen zu denken, findet das Studium von Eigenschaften wie Länge, Frequenz, Alter, Grad der Polysemie usw. wahrscheinlich eher interessant und notwendig als ein Forscher, der in Begriffen der Mengenlehre und Algebra denkt. Es gibt allerdings eine immense Anzahl von interessanten und wichtigen Eigenschaften und Prozessen in der Sprache, die nur durch quantitative Methoden auf der Basis von quantitativen Konzepten aufgedeckt und analysiert werden können: Erscheinungen und Wechselbeziehungen, die nur durch Zahlen oder Rangierungen ausgedrückt werden können. Es gibt Wechselbeziehungen unter diesen Erscheinungen, die zentrale Rollen in der Entwicklung der Sprache(n) spielen, weil ihre Konsequenzen zu den Strukturen und Eigenschaften führen, die wir in Sprache und Text beobachten können. Unter diesen Wechselbeziehungen sind z.B. die Abhängigkeiten der Länge (oder Komplexität) von syntaktischen Konstruktionen und ihrer Frequenz oder ihrer Ambiguität, von Homonymie grammatischer Morpheme und ihrer Verteilung im jeweiligen Paradigma, der Länge von Ausdrücken und ihrem Alter, der Dynamik des Informationsflusses in einem Text und seiner Größe, der Wahrscheinlichkeit eines Lautwandels und seiner artikulatorischen Schwierigkeit ... kurz gesagt, in jedem Feld und auf jeder Stufe linguistischer Analyse - Lexikon, Phonologie, Morphologie, Syntax, Textstruktur, Semantik, Pragmatik, Dialektologie, Sprachwandel, Psycho- und Soziolinguistik, in Prosa und lyrischer Poesie - sind Phänomene dieser Art vorherrschend. Sie können in jeder Sprache der Welt und zu jeder Zeit beobachtet werden. Überdies kann gezeigt werden, dass diese Eigenschaften von sprachlichen Elementen und ihren Wechselbeziehungen universellen Gesetze folgen, die mathematisch strikt formuliert werden können - in Analogie zu den Gesetzen der bekannten Naturwissenschaften. Betont werden muss hier die Tatsache, dass diese Gesetze stochastisch sind; sie erfassen keine Einzelfälle (das wäre weder zu erwarten noch überhaupt möglich), sondern sie schreiben die Wahrscheinlichkeiten von bestimmten Ereignissen oder bestimmten Bedingungen als Ganzes vor. Es ist leicht, einzelne Gegenbeispiele zu jedem der oben genannten Beispiele zu finden. Trotzdem heißt das nicht, dass diese den entsprechenden Gesetzen widersprechen. Abweichungen von einem statistischen Durchschnittswert sind nicht nur zulässig, sondern sogar notwendig – und sie sind selbst quantitativ exakt festgelegt. Diese Situation ist prinzipiell nicht anders als die der Naturwissenschaften, in denen alte deterministische Ideen schon lange nicht mehr verwendet werden und durch moderne statistische/ probabilistische Modelle ersetzt worden sind. Die Rolle der QL ist es nun, entsprechende Phänomene aufzudecken, sie systematisch zu beschreiben und Gesetze zu finden und zu formulieren, die die beobachteten und beschriebenen Fakten erklären. Quantitative Wechselbeziehungen haben einen enormen Wert für die Grundlagenforschung, aber sie können auch in vielen Bereichen wie der Computerlinguistik und der Verarbeitung natürlicher Sprache, der Sprachlehrforschung, der Optimierung von Texten usw. benutzt und angewandt werden. Die frühe moderne Linguistik, in der Zeit nach dem bahnbrechenden Beitrag de Saussures, war hauptsächlich an der Struktur der Sprache interessiert. Folglich wanden die Linguisten die qualitativen Mittel der Mathematik an: Logik, Algebra, Mengenlehre. Die historische Entwicklung der Linguistik und eine spätere einseitige Betonung bestimmter Elemente in den strukturellen Errungenschaften resultierten in der Entstehung eines absolut statischen Systembegriff, der bis heute vorherrscht. Die Aspekte von Systemen, die über die Struktur hinausgehen, das heißt Funktionen, Dynamik, Prozesse, werden fast gänzlich außer Acht gelassen. Um diese Schwachstelle zu beseitigen, müssen die quantitativen Teile der Mathematik (z.B. Analysis, Wahrscheinlichkeitstheorie und Statistik, Funktionentheorie, Differential- und Differenzgleichungen) den qualitativen zur Seite gestellt werden, und dies ist das eigentliche Ziel der QL. Nicht zuletzt haben wichtige Anwendungen in den Bereichen der Sprach- und Texttechnologie, der Computerlinguistik usw. quantitative Methoden übernommen, weil rein qualitative Mittel in der Anwendung versagt haben. Heutzutage wenden die meisten funktionierenden Systeme in diesen Bereichen QL-Techniken an, die daher auch unter Dozenten und Studenten dieser Fächer auf wachsendes Interesse stoßen.
Ziele der QL
Wie oben kurz angemerkt kann die quantitative Linguistik nicht durch ein spezifisches Erkenntnisinteresse charakterisiert werden. Forscher in der QL studieren die gleichen wissenschaftlichen Gegenstände wie andere Linguisten. Allerdings betont die QL im Gegensatz zu anderen Zweigen der Linguistik die Einführung und Anwendung von zusätzlichen, erweiterten wissenschaftlichen Werkzeugen. Prinzipiell versucht die Linguistik, auf die gleiche Art und Weise wie andere empirische Wissenschaften auf ihren Gebieten Erklärungen für die Eigenschaften, Mechanismen, Funktionen, die Entwicklung usw. von Sprache(n) zu finden. Es wäre natürlich ein Fehler, von endgültigen Erklärungen zu sprechen , die helfen „die Essenz der Dinge“, ihr „Wesen“ zu erkennen, (cf. Popper 1971: 23, Hempel 1952: 52ff; cf. also Kutschera 1972: 19f ). Die Wissenschaft strebt nach einer Hierarchie von Erklärungen, die zu immer generelleren Theorien führen und immer mehr Phänomene erfassen, ohne jemals in der Lage zu sein, eine endgültige Erklärung zu finden. Aufgrund der stochastischen Eigenschaften von Sprache spielen Metrisierung und probabilistische Modelle eine wichtige Rolle in diesem Prozess. Im Rahmen dieses allgemeinen Ziels hat die QL nur deshalb einen besonderen Status, weil sie besonders bestrebt ist, für Methoden, die für diesen Zweck notwendig sind, zu sorgen, und sie wird diesen Status nur so lange innehaben, wie diese Methoden nicht auf allen Gebieten von Sprach- und Textforschung verbreitet sind. Wir können dieses Bemühen durch zwei komplementäre Aspekte charakterisieren: einerseits ist die Entwicklung und Anwendung von quantitativen Modellen und Methoden unentbehrlich überall da, wo die rein formalen Methoden (Algebra, Mengenlehre und Logik) versagen, d.h. wo die Veränderlichkeit und Vagheit von natürlichen Sprachen nicht missachtet werden können, wo Tendenzen und Präferenzen über starre Prinzipien dominieren, wo graduelle Veränderungen die Anwendung von statischen/ strukturellen Modellen ausschließen. Kurz gesagt müssen quantitative Ansätze immer dann angewendet werden, wenn die tiefgreifende Vereinfachung, die durch die qualitative ja/nein-Skala bedingt ist, für eine gegebene Untersuchung oder Anwendung nicht gerechtfertigt oder angemessen ist. Andererseits sind quantitative Konzepte und Methoden, wie oben gezeigt, den qualitativen grundsätzlich überlegen. Die quantitativen Konzepte ermöglichen durch die Bereitstellung einer beliebig feinen Auflösung eine angemessenere Beschreibung der Realität. Zwischen den zwei Extremwerten ja/nein, richtig/falsch, 1/0 der qualitativen Konzepte können so viele Grade wir benötigt unterschieden werden, bis zu den unendlichen vielen Graden des Kontinuums. Im Allgemeinen zielt die Entwicklung von quantitativen Methoden auf die Verbesserung der Genauigkeit und der Präzision von möglichen Aussagen über die Eigenschaften von linguistischen und textuellen Gegenständen ab. Die Genauigkeit hängt von zwei Faktoren ab: von der Schärfe der Definition eines Konzepts und von der Qualität der Messmethoden, mit denen eine gegebene Eigenschaft untersucht werden kann. Die erfolgreiche Definition einer linguistischen Eigenschaft mit ausreichend klaren Konzepten erlaubt uns, sie mit mathematischen Mittelwerten zu handhaben, vorausgesetzt die Operation entspricht dem Skalenniveau (siehe oben) des Konzepts. Solche Operationen helfen uns bei der Ableitung neuer Einblicke, die ohne sie nicht möglich wären: Bewertungskriterien, die zur Zeit nur in einer subjektiven, tentativen Form existieren, können objektiviert und operationalisiert (z.B. in der Stilistik) werden, Wechselbeziehungen zwischen Einheiten und Eigenschaften können aufgedeckt werden, die mit qualitativen Methoden unerkannt bleiben, und praktikable Methoden für technische und andere Anwendungsfelder können gefunden werden, wo die traditionellen linguistischen Methoden versagen oder aufgrund der stochastischen Eigenschaften der Daten oder ihrer bloßen Masse (z.B. im Natural Language Processing) unangemessene Ergebnisse hervorbringen.
Überblick
Während die formalen Zweige der Linguistik nur die qualitativen mathematischen Mittel (Algebra, Mengenlehre) und die Logik benutzen, um strukturelle Eigenschaften von Sprache zu modellieren, befasst sich die quantitative Linguistik (QL) mit der Vielzahl der quantitativen Eigenschaften, die grundlegend sind für die Beschreibung und das Verständnis der Entwicklung und des Funktionierens von sprachlichen Systemen und ihren Elementen. Weder unterscheiden sich daher die Gegenstände der QL-Forschung von denen der anderen sprach- und textwissenschaftlichen Disziplinen, noch gibt es einen Unterschied in ihren erkenntnistheoretischen Interessen. Der Unterschied liegt vielmehr in der ontologischen Sichtweise (betrachten wir eine Sprache als eine Menge von Sätzen mit den ihnen zugeordneten Strukturen oder sehen wir sie als ein System, das in Analogie zu biologischen Organismen evolutionären Prozessen unterliegt, usw.) und folglich in den Konzepten, die die Grundlage der Disziplinen bilden. Unterschiede dieser Art machen die Fähigkeit eines Forschers aus, Elemente, Phänomene oder Eigenschaften auf seinem Forschungsgebiet zu erkennen - oder nicht. Ein Linguist, der gewohnt ist, in Form von Quantitäten, Wahrscheinlichkeiten und Tendenzen zu denken, findet das Studium von Eigenschaften wie Länge, Frequenz, Alter, Grad der Polysemie usw. wahrscheinlich eher interessant und notwendig als ein Forscher, der in Begriffen der Mengenlehre und Algebra denkt. Es gibt allerdings eine immense Anzahl von interessanten und wichtigen Eigenschaften und Prozessen in der Sprache, die nur durch quantitative Methoden auf der Basis von quantitativen Konzepten aufgedeckt und analysiert werden können: Erscheinungen und Wechselbeziehungen, die nur durch Zahlen oder Rangierungen ausgedrückt werden können. Es gibt Wechselbeziehungen unter diesen Erscheinungen, die zentrale Rollen in der Entwicklung der Sprache(n) spielen, weil ihre Konsequenzen zu den Strukturen und Eigenschaften führen, die wir in Sprache und Text beobachten können. Unter diesen Wechselbeziehungen sind z.B. die Abhängigkeiten der Länge (oder Komplexität) von syntaktischen Konstruktionen und ihrer Frequenz oder ihrer Ambiguität, von Homonymie grammatischer Morpheme und ihrer Verteilung im jeweiligen Paradigma, der Länge von Ausdrücken und ihrem Alter, der Dynamik des Informationsflusses in einem Text und seiner Größe, der Wahrscheinlichkeit eines Lautwandels und seiner artikulatorischen Schwierigkeit ... kurz gesagt, in jedem Feld und auf jeder Stufe linguistischer Analyse - Lexikon, Phonologie, Morphologie, Syntax, Textstruktur, Semantik, Pragmatik, Dialektologie, Sprachwandel, Psycho- und Soziolinguistik, in Prosa und lyrischer Poesie - sind Phänomene dieser Art vorherrschend. Sie können in jeder Sprache der Welt und zu jeder Zeit beobachtet werden. Überdies kann gezeigt werden, dass diese Eigenschaften von sprachlichen Elementen und ihren Wechselbeziehungen universellen Gesetze folgen, die mathematisch strikt formuliert werden können - in Analogie zu den Gesetzen der bekannten Naturwissenschaften. Betont werden muss hier die Tatsache, dass diese Gesetze stochastisch sind; sie erfassen keine Einzelfälle (das wäre weder zu erwarten noch überhaupt möglich), sondern sie schreiben die Wahrscheinlichkeiten von bestimmten Ereignissen oder bestimmten Bedingungen als Ganzes vor. Es ist leicht, einzelne Gegenbeispiele zu jedem der oben genannten Beispiele zu finden. Trotzdem heißt das nicht, dass diese den entsprechenden Gesetzen widersprechen. Abweichungen von einem statistischen Durchschnittswert sind nicht nur zulässig, sondern sogar notwendig – und sie sind selbst quantitativ exakt festgelegt. Diese Situation ist prinzipiell nicht anders als die der Naturwissenschaften, in denen alte deterministische Ideen schon lange nicht mehr verwendet werden und durch moderne statistische/ probabilistische Modelle ersetzt worden sind. Die Rolle der QL ist es nun, entsprechende Phänomene aufzudecken, sie systematisch zu beschreiben und Gesetze zu finden und zu formulieren, die die beobachteten und beschriebenen Fakten erklären. Quantitative Wechselbeziehungen haben einen enormen Wert für die Grundlagenforschung, aber sie können auch in vielen Bereichen wie der Computerlinguistik und der Verarbeitung natürlicher Sprache, der Sprachlehrforschung, der Optimierung von Texten usw. benutzt und angewandt werden. Die frühe moderne Linguistik, in der Zeit nach dem bahnbrechenden Beitrag de Saussures, war hauptsächlich an der Struktur der Sprache interessiert. Folglich wanden die Linguisten die qualitativen Mittel der Mathematik an: Logik, Algebra, Mengenlehre. Die historische Entwicklung der Linguistik und eine spätere einseitige Betonung bestimmter Elemente in den strukturellen Errungenschaften resultierten in der Entstehung eines absolut statischen Systembegriff, der bis heute vorherrscht. Die Aspekte von Systemen, die über die Struktur hinausgehen, das heißt Funktionen, Dynamik, Prozesse, werden fast gänzlich außer Acht gelassen. Um diese Schwachstelle zu beseitigen, müssen die quantitativen Teile der Mathematik (z.B. Analysis, Wahrscheinlichkeitstheorie und Statistik, Funktionentheorie, Differential- und Differenzgleichungen) den qualitativen zur Seite gestellt werden, und dies ist das eigentliche Ziel der QL. Nicht zuletzt haben wichtige Anwendungen in den Bereichen der Sprach- und Texttechnologie, der Computerlinguistik usw. quantitative Methoden übernommen, weil rein qualitative Mittel in der Anwendung versagt haben. Heutzutage wenden die meisten funktionierenden Systeme in diesen Bereichen QL-Techniken an, die daher auch unter Dozenten und Studenten dieser Fächer auf wachsendes Interesse stoßen.
Ziele der QL
Wie oben kurz angemerkt kann die quantitative Linguistik nicht durch ein spezifisches Erkenntnisinteresse charakterisiert werden. Forscher in der QL studieren die gleichen wissenschaftlichen Gegenstände wie andere Linguisten. Allerdings betont die QL im Gegensatz zu anderen Zweigen der Linguistik die Einführung und Anwendung von zusätzlichen, erweiterten wissenschaftlichen Werkzeugen. Prinzipiell versucht die Linguistik, auf die gleiche Art und Weise wie andere empirische Wissenschaften auf ihren Gebieten Erklärungen für die Eigenschaften, Mechanismen, Funktionen, die Entwicklung usw. von Sprache(n) zu finden. Es wäre natürlich ein Fehler, von endgültigen Erklärungen zu sprechen , die helfen „die Essenz der Dinge“, ihr „Wesen“ zu erkennen, (cf. Popper 1971: 23, Hempel 1952: 52ff; cf. also Kutschera 1972: 19f ). Die Wissenschaft strebt nach einer Hierarchie von Erklärungen, die zu immer generelleren Theorien führen und immer mehr Phänomene erfassen, ohne jemals in der Lage zu sein, eine endgültige Erklärung zu finden. Aufgrund der stochastischen Eigenschaften von Sprache spielen Metrisierung und probabilistische Modelle eine wichtige Rolle in diesem Prozess. Im Rahmen dieses allgemeinen Ziels hat die QL nur deshalb einen besonderen Status, weil sie besonders bestrebt ist, für Methoden, die für diesen Zweck notwendig sind, zu sorgen, und sie wird diesen Status nur so lange innehaben, wie diese Methoden nicht auf allen Gebieten von Sprach- und Textforschung verbreitet sind. Wir können dieses Bemühen durch zwei komplementäre Aspekte charakterisieren: einerseits ist die Entwicklung und Anwendung von quantitativen Modellen und Methoden unentbehrlich überall da, wo die rein formalen Methoden (Algebra, Mengenlehre und Logik) versagen, d.h. wo die Veränderlichkeit und Vagheit von natürlichen Sprachen nicht missachtet werden können, wo Tendenzen und Präferenzen über starre Prinzipien dominieren, wo graduelle Veränderungen die Anwendung von statischen/ strukturellen Modellen ausschließen. Kurz gesagt müssen quantitative Ansätze immer dann angewendet werden, wenn die tiefgreifende Vereinfachung, die durch die qualitative ja/nein-Skala bedingt ist, für eine gegebene Untersuchung oder Anwendung nicht gerechtfertigt oder angemessen ist. Andererseits sind quantitative Konzepte und Methoden, wie oben gezeigt, den qualitativen grundsätzlich überlegen. Die quantitativen Konzepte ermöglichen durch die Bereitstellung einer beliebig feinen Auflösung eine angemessenere Beschreibung der Realität. Zwischen den zwei Extremwerten ja/nein, richtig/falsch, 1/0 der qualitativen Konzepte können so viele Grade wir benötigt unterschieden werden, bis zu den unendlichen vielen Graden des Kontinuums. Im Allgemeinen zielt die Entwicklung von quantitativen Methoden auf die Verbesserung der Genauigkeit und der Präzision von möglichen Aussagen über die Eigenschaften von linguistischen und textuellen Gegenständen ab. Die Genauigkeit hängt von zwei Faktoren ab: von der Schärfe der Definition eines Konzepts und von der Qualität der Messmethoden, mit denen eine gegebene Eigenschaft untersucht werden kann. Die erfolgreiche Definition einer linguistischen Eigenschaft mit ausreichend klaren Konzepten erlaubt uns, sie mit mathematischen Mittelwerten zu handhaben, vorausgesetzt die Operation entspricht dem Skalenniveau (siehe oben) des Konzepts. Solche Operationen helfen uns bei der Ableitung neuer Einblicke, die ohne sie nicht möglich wären: Bewertungskriterien, die zur Zeit nur in einer subjektiven, tentativen Form existieren, können objektiviert und operationalisiert (z.B. in der Stilistik) werden, Wechselbeziehungen zwischen Einheiten und Eigenschaften können aufgedeckt werden, die mit qualitativen Methoden unerkannt bleiben, und praktikable Methoden für technische und andere Anwendungsfelder können gefunden werden, wo die traditionellen linguistischen Methoden versagen oder aufgrund der stochastischen Eigenschaften der Daten oder ihrer bloßen Masse (z.B. im Natural Language Processing) unangemessene Ergebnisse hervorbringen.
Literatur
- Köhler, Reinhard: Gegenstand und Arbeitsweise der quantitativen Linguistik. In: Reinhard Köhler, Gabriel Altmann and Rajmund G. Piotrowski [eds.]: Quantitative Linguistik. Ein internationales Handbuch. Quantitative Linguistics. An international Handbook. (=HSK27) Berlin, New York: de Gruyter, pp. 1-15.
- Köhler, Reinhard, Altmann, Gabriel: “Quantitative Linguistics”. In: The Cambridge Encyclopedia of the Language Sciences, ed. Patrick Colm Hogan, (to appear).
- Hempel, Carl Gustav (1952), Fundamentals of concept formation in empirical science. In: International Encyclopedia of Unified Science II 7. Chicago.
- Kutschera, Franz von (1972), Wissenschaftstheorie Bd. 1. München: Fink.
- Popper, Karl R. (1971), Das Elend des Historizismus. Tübingen: Mohr.