Zipfsches Gesetz

From Glottopedia
Jump to navigation Jump to search

Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verteilung, folgen, die einer Hyperbel <math>\tfrac{1}{n}</math> ähnelt. Benannt ist es nach dem Linguisten George Kingsley Zipf (1902-1950), der mit der Entwicklung des Modells (1935-1949) den Beginn der Quantitativen Linguistik markierte. Dort dient es beispielsweise zur Beschreibung der Verteilung von Worthäufigkeiten in Texten.

Zipfverteilung

Gegeben sei eine Gesamtheit von <math>N</math> Elementen einer nichtleeren Menge. Sortiert man diese Elemente in eine Rangfolge nach ihrer Häufigkeit, so verhält sich die Wahrscheinlichkeit <math>p</math> des Auftretens eines Elementes zu deren Position <math>n</math>:

<math>p(n) \sim n^{-b}</math>

Die Zipfverteilung beschreibt also eine Hyperbelartige Kurve, die weiterhin durch ein Zahl der harmonischen Reihe normiert wird. Es ergibt sich

<math>p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b}</math>

wobei für den Normierungsfaktor <math>H_N</math> gilt:

<math>H_N = \sum_{i=1}^N \frac{1}{i} \approx ln(N) + 0,577 \approx ln(1,78 \cdot N)</math>

Zusammengefasst folgt damit:

<math>p(n) \approx \frac{1}{n^b \cdot ln(1,78 \cdot N)}</math>

Der Parameter <math>b</math> wird als Fitparameter bezeichnet. Er variiert mit dem zugrundeliegenden Datensatz und passt die Kurve bestmöglich an die tatsächliche Verteilung an. Ursprünglich verfasste Zipf das Gesetz parameterlos, also mit <math>\textstyle b = 1</math>.

Anwendung

Zipf-Verteilung der Worthäufigkeiten im Roman Effi Briest

Seine häufigste Anwendung findet das Zipfsche Gesetz in der Korpuslinguistik und der Quantitativen Linguistik. Hier werden Wörter eines Korpus (oder Textes) nach der Häufigkeit ihres Vorkommens in diesem angeordnet. Die entstehende Zipfverteilung beschreibt dabei, dass das zweite Wort in der Rangfolge in etwa nur halb so oft in dem Korpus vorkommt wie das Wort an erster Stelle, die Häufigkeit des dritten Wortes beträgt nur ungefähr ein Drittel der des ersten Wortes, usw. Dies gilt jedoch nicht für alle Sprachen.

Das Zipfsche Gesetz findet auch Beachtung in anderen wissenschaftlichen Disziplinen, so beispielsweise in der Demografie. Hier folgen Verteilungen der Einwohner pro Stadt einer Zipf-Verteilung. Auf dieses Phänomen wurde sogar schon 1913 der deutsche Physiker Felix Auerbach aufmerksam.

Anpassung durch Benoît Mandelbrot

Logarithmischer Plot der Zipf-Verteilung

Die von Zipf aufgestellte Formel passt in der Praxis leider noch nicht so genau, wie es wünschenswert wäre. Die ersten Ranghäufigkeiten sind selten so streng wie beschrieben vielfache voneinander, sondern liegen noch nah beieinander. Auch für die größten Ränge verhält sich Zipfs Formel nicht mehr ganz exakt. Dies ist vor allem erkennbar, wenn Häufigkeit und Rang logarithmisch gegeneinander aufgetragen werden. Zipfs Kurve wird dabei linear und kann nicht mehr gut an den gesamten Wertebereich angepasst werden, da dieser eine annähernd konvexe Kurve beschreibt.

Eine gute Anpassung an die Zipf-Verteilung ist nur abschnittweise möglich.
Zipf-Mandelbrot-Anpassung.

Durch Stellen an den Parametern (inkl. dem Normierungsfaktor) kann höchstens eine abschnittweise Anpassung erreicht werden, jedoch keine hinreichend befriedigende Anpassung an die gesamte Verteilung.

Dieser Umstand liegt zuletzt darin begründet, dass Zipf in erster Linie Linguist war und ihm ein tiefergehendes mathematisches Verständnis zur Verbesserung der Formel fehlte.

Der Mathematiker Benoît Mandelbrot erweiterte die von Zipf entwickelte „einfache“ Verteilungs-Funktion um zwei weitere Parameter und schuf damit eine bessere Anpassung im Bereich der niedrigen und höheren Ränge, indem er die entgegengesetzte Proportionalität um einen weiteren Parameter <math>m</math>ergänzte:

<math>p(n) \sim (n+m)^{-b}</math>

oder als Gleichung mit der Konstanten <math>a</math>

<math>p(n) = \frac{a}{(n+m)^{b}}</math>

Für <math>a</math> bedient sich Mandelbrot ebenfalls der <math>N</math>-ten (verallgemeinerten) harmonischen Zahl <math>\textstyle H_{N,m,b}</math> als Normierungsfaktor:

<math>p(n) = \frac{1}{H_{N,m,b}} \cdot \frac{1}{(n+m)^b}</math>

mit

<math>H_{N,m,b} = \sum_{i=1}^N \frac{1}{(i+m)^b}</math>

Literatur

  • Adamic, Lada: Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html
  • Auerbach, Felix (1913): Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  • Mandelbrot, Benoît (1965): "Information Theory and Psycholinguistics". In B.B. Wolman and E. Nagel. Scientific psychology. Basic Books
  • Rapaport, Anatol: ”Zipf‟s Law Re-visited.” Studies on Zipf‟s Law. Bochum:Brockmeyer.
  • Silagadze, Z. K. (1999): "Citations and the Zipf-Mandelbrot's law." http://uk.arxiv.org/abs/physics/9901035
  • Zanette, Damián H. (2006): "Zipf's law and the creation of musical context." Musicae Scientiae 10: 3-18.
  • Zipf, George Kingsley (1932): "Selected Studies of the Principle of Relative Frequency in Language." Cambridge, MA: Harvard University Press.
  • Zipf, George Kingsley (1935/68): The Psycho-Biology of Language. An Introduction to Dynamic Philology. The M.I.T. Press, Cambridge, Mass.
  • Zipf, George Kingsley (1949): Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Addison-Wesley Press, Cambridge, Mass.