标签: corpus text-segmentation
我正在使用ICTCLAS中文分词工具。我们可以阅读“基于角色标记的中国未知单词的自动识别”(Zhang,Liu,2002),它已经在北京大学语料库(PKU)接受过培训:“培训语料库来自人民的一个月新闻每日有2,305,896个汉字,经过分词和POS标记手动检查(可在北京大学计算语言学研究所主页icl.pku.edu.cn下载。)
但是我没有发现自2002年这篇论文以来他们使用的数据的其他任何提及,并且想确认他们仍然在PKU上培训分段器。