Difference between revisions of "Token (de)"

From Glottopedia
Jump to navigation Jump to search
(Marked as {{ref}})
 
(7 intermediate revisions by 3 users not shown)
Line 1: Line 1:
Der Begriff '''token''' bezeichnet (a) die kleinsten textuellen Einheiten (Wortformen und Interpunktionszeichen) und (b) die konkrete Realisierung von (beliebig komplexen) Einheiten.
+
Der Begriff '''Token''' bezeichnet (a) die kleinsten textuellen Einheiten (Wortformen und Interpunktionszeichen) und (b) die konkrete Realisierung von (beliebig komplexen) Einheiten.
  
 
===Kommentar===
 
===Kommentar===
In den segmentierten Schriftsystemen, welche zum Beispiel aus lateinischen, kyrillischen oder griechischen Zeichen bestehen, ist ein '''Token''' eine Einheit alphanumerischer Zeichen, dessen Anfang und Ende durch ein Leerraumzeichen (''white space'') oder durch eine Interpunktion gekennzeichnet ist. Einzelne Token sind üblicherweise Worte, Wortformen oder Interpunktionen. Ein Text wird mit Hilfe eines [[Tokenizer|Tokenizers]] in seine einzelnen Token zerlegt. Diesen Vorgang bezeichnet man als [[Tokenisierung]].
+
Zu (a): In den segmentierten Schriftsystemen, welche zum Beispiel aus lateinischen, kyrillischen oder griechischen Zeichen bestehen, ist ein '''Token''' eine Einheit alphanumerischer Zeichen, dessen Anfang und Ende durch ein Leerraumzeichen (''white space'') oder durch eine Interpunktion gekennzeichnet ist. Einzelne Token sind üblicherweise Worte, Wortformen oder Interpunktionen. Ein Text wird mit Hilfe eines [[Tokenizer|Tokenizers]] in seine einzelnen Token zerlegt. Diesen Vorgang bezeichnet man als [[Tokenisierung]].
 
 
 
In den nicht-segmentierten Schriftsystemen (wie beispielsweise im Japanischen oder Chinesischen verwendet), existieren weder Leerraumzeichen noch Interpunktion. Für diese Sprachen trifft die oben genannte Definition eines Tokens nicht zu.
 
In den nicht-segmentierten Schriftsystemen (wie beispielsweise im Japanischen oder Chinesischen verwendet), existieren weder Leerraumzeichen noch Interpunktion. Für diese Sprachen trifft die oben genannte Definition eines Tokens nicht zu.
  
Token können in Beziehung zu [[Type-Token-Relation|Types]] gesetzt werden, wobei ein Token jedes konkrete Vorkommen eines Zeichens bezeichnen, ein Type jedoch gleichlautende Token zu einer Klasse zusammenfügt.
+
Zu (b): Jede linguistische Einheit (Phonem, Graphem, Wort, Phrase, Satz, etc.) kann in einer komplexeren Einheit mehrfach vorkommen Die zugrunde liegenden Einheiten werden als [[Type|''Types'']], ihre Realisierungen als ''Token'' bezeichnet.
  
==Beispiele==
+
===Beispiele===
Der Satz ''John Mack trägt seinen Spitznamen "das Messer" zu Recht''. (TA von Mi, 18.12.2002) wird in die folgenden zwölf Token unterteilt:<br/>
+
(a) Der Satz ''John Mack trägt seinen Spitznamen "das Messer" zu Recht''. (TA von Mi, 18.12.2002) wird in die folgenden zwölf Token unterteilt:<br/>
  
 
''John''<br/>
 
''John''<br/>
Line 24: Line 23:
 
''.''<br/>''
 
''.''<br/>''
  
==Herkunft==
+
(b) Das Zeichen /e/ (Type) kommt in dem Satz (a) 6 mal (Token) vor.
 +
 
 +
===Herkunft===
 
englisch ''token'' - Zeichen, Merkmal, Spielstein
 
englisch ''token'' - Zeichen, Merkmal, Spielstein
  
{{wb}}
+
===Andere Sprachen===
 +
*russisch [[знак-экземпляр]] = [[экземпляр]]
 +
{{wb}}{{ref}}
 +
[[Category:Computational Linguistics]]

Latest revision as of 18:48, 2 August 2014

Der Begriff Token bezeichnet (a) die kleinsten textuellen Einheiten (Wortformen und Interpunktionszeichen) und (b) die konkrete Realisierung von (beliebig komplexen) Einheiten.

Kommentar

Zu (a): In den segmentierten Schriftsystemen, welche zum Beispiel aus lateinischen, kyrillischen oder griechischen Zeichen bestehen, ist ein Token eine Einheit alphanumerischer Zeichen, dessen Anfang und Ende durch ein Leerraumzeichen (white space) oder durch eine Interpunktion gekennzeichnet ist. Einzelne Token sind üblicherweise Worte, Wortformen oder Interpunktionen. Ein Text wird mit Hilfe eines Tokenizers in seine einzelnen Token zerlegt. Diesen Vorgang bezeichnet man als Tokenisierung. In den nicht-segmentierten Schriftsystemen (wie beispielsweise im Japanischen oder Chinesischen verwendet), existieren weder Leerraumzeichen noch Interpunktion. Für diese Sprachen trifft die oben genannte Definition eines Tokens nicht zu.

Zu (b): Jede linguistische Einheit (Phonem, Graphem, Wort, Phrase, Satz, etc.) kann in einer komplexeren Einheit mehrfach vorkommen Die zugrunde liegenden Einheiten werden als Types, ihre Realisierungen als Token bezeichnet.

Beispiele

(a) Der Satz John Mack trägt seinen Spitznamen "das Messer" zu Recht. (TA von Mi, 18.12.2002) wird in die folgenden zwölf Token unterteilt:

John
Mack
trägt
seinen
Spitznamen
"
das
Messer
"
zu
Recht
.

(b) Das Zeichen /e/ (Type) kommt in dem Satz (a) 6 mal (Token) vor.

Herkunft

englisch token - Zeichen, Merkmal, Spielstein

Andere Sprachen

REF This article has no reference(s) or source(s).
Please remove this block only when the problem is solved.