Type-Token-Relation
Definition
Die Type-Token-Relation ist eine aus der Statistik übernommene Terminologie zur Unterscheidung zwischen einzelnen sprachlichen Äusserungen ( = token) und der Klasse der diesen Äusserungen zugrundeliegenden abstrakten Einheiten ( = types). Die Types bilden also das Vokabular eines Korpus ab.
Beispiel
Gertrude Steins berühmtes Zitat A rose is a rose is a rose. besteht aus 9 Token (8 Wörtern und dem Satzendepunkt), aber aus 5 Types: A, rose, is, a und dem Satzendepunkt. Führt man vorher eine Normalisierung aller Wörter zu Kleinbuchstaben durch, reduziert sich die Anzahl der Types dementsprechend auf 4. Schaltet man der Tokenisierung ein Stemming vor, besteht der Satz Wir haben alles gesehen, was es zu sehen gab. aus 11 Token, aber nur aus 10 Types, da gesehen und sehen zum selben Type gehören.
Ursprung
engl. type - Typus engl. token - Zeichen