应用错误收集

我正在使用ICTCLAS中文分词工具。我们可以阅读“基于角色标记的中国未知单词的自动识别”（Zhang，Liu，2002），它已经在北京大学语料库（PKU）接受过培训：“培训语料库来自人民的一个月新闻每日有2,305,896个汉字，经过分词和POS标记手动检查（可在北京大学计算语言学研究所主页icl.pku.edu.cn下载。）

但是我没有发现自2002年这篇论文以来他们使用的数据的其他任何提及，并且想确认他们仍然在PKU上培训分段器。

中文细分：ICTCLAS培训语料库

0 个答案: