Difference between revisions of "Tokenizer"
Jump to navigation
Jump to search
m |
Wohlgemuth (talk | contribs) m |
||
Line 1: | Line 1: | ||
Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet. | Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
{{wb}} | {{wb}} | ||
+ | {{stub}}{{cats}} | ||
+ | {{ref}} |
Latest revision as of 11:27, 20 February 2009
Ein Tokenizer segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als Token bezeichnet.
STUB |
CAT | This article needs proper categorization. You can help Glottopedia by categorizing it Please do not remove this block until the problem is fixed. |
REF | This article has no reference(s) or source(s). Please remove this block only when the problem is solved. |