Tokenizer

From Glottopedia
Revision as of 07:51, 8 July 2007 by NaumSven (talk | contribs)
Jump to navigation Jump to search

Ein Tokenizer segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als Token bezeichnet.