标签: java nlp tokenize
我正在尝试用Java标记意大利文本以便进一步处理。 有没有用于标记意大利语输入的工具? SimpleTokenizer在某种程度上可以正常工作,但如果像意大利家族名称“De Marchi”一样,我会把它作为2个令牌。