如何使用StanfordCoreNLP添加用户词典

时间:2018-10-14 07:51:42

标签: java python stanford-nlp

我目前正在使用StanfordCoreNLP进行中文单词分词。 我目前已经设法使用python运行令牌生成器:

>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊,很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', ',', '很', '适合', '去', '游泳', '呢']

但是,现在我想添加自己的字典来改善标记化结果。例如,我希望将“很适合”作为单个令牌。 (我实际上有一个单词列表作为我自己的字典)。如何添加字典?


我已经知道dict文件位于.jar文件中:

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford \ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

但是自从我用notepad ++打开它之后,如何修改它,却发现它是凌乱的代码。

1 个答案:

答案 0 :(得分:0)

这里有有关建立自己的字典的信息:

https://nlp.stanford.edu/software/segmenter-faq.html

您可以在文件列表和您自己的自定义文件列表中包括我们的词典。