我目前正在使用StanfordCoreNLP进行中文单词分词。 我目前已经设法使用python运行令牌生成器:
>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊,很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', ',', '很', '适合', '去', '游泳', '呢']
但是,现在我想添加自己的字典来改善标记化结果。例如,我希望将“很适合”作为单个令牌。 (我实际上有一个单词列表作为我自己的字典)。如何添加字典?
我已经知道dict文件位于.jar文件中:
但是自从我用notepad ++打开它之后,如何修改它,却发现它是凌乱的代码。
答案 0 :(得分:0)