Difference between revisions of "Tokenizer"

Revision as of 07:51, 8 July 2007

Ein Tokenizer segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als Token bezeichnet.

Revision as of 07:50, 8 July 2007 (view source) NaumSven (talk \| contribs) (New page: Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. {{w...)		Revision as of 07:51, 8 July 2007 (view source) NaumSven (talk \| contribs) m Newer edit →
Line 1:		Line 1:
−	Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen.	+	Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet.

Difference between revisions of "Tokenizer"

Revision as of 07:51, 8 July 2007

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Interaction

Tools