Question

我目前正在使用StanfordCoreNLP进行中文单词分词。我目前已经设法使用python运行令牌生成器：

>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊，很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', '，', '很', '适合', '去', '游泳', '呢']

但是，现在我想添加自己的字典来改善标记化结果。例如，我希望将“很适合”作为单个令牌。（我实际上有一个单词列表作为我自己的字典）。如何添加字典？

我已经知道dict文件位于.jar文件中：

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford \ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

但是自从我用notepad ++打开它之后，如何修改它，却发现它是凌乱的代码。

Answer 1

这里有有关建立自己的字典的信息：

https://nlp.stanford.edu/software/segmenter-faq.html

您可以在文件列表和您自己的自定义文件列表中包括我们的词典。

如何使用StanfordCoreNLP添加用户词典

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford \ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

1 个答案: