我想用新数据训练Chines Segenter,我制作了一本字典和一个序列化的树库文本文件。
我的问题是我不理解或找不到有关以下区别的文件:
-sighanCorporaDict数据
和
-trainFile train.txt
有人可以帮我解决这个问题。我的中文数据集是佛教古代文本,这使得很难替换像-sighanCorporaDict这样的资源?
一切顺利
安德烈亚斯
答案 0 :(得分:1)
这里有文档用于培训您自己的中文分词:
https://nlp.stanford.edu/software/segmenter-faq.html
sighanCorporaDict
是一个包含分段器所需资源的目录...这应该设置为分段器分发中的data
目录
trainFile
应该是已正确分割的句子列表(单词用空格分隔)。