如何在python中将自己的字典添加到wordsegment库?

时间:2018-02-20 11:39:33

标签: python machine-learning

为了在python中分割单词,我使用了wordsegment库,它已经内置了字典,基于这些字词被分割出来。有人能告诉我如何在字典中添加更多单词吗?代码如下:

import wordsegment as ws
from wordsegment import load, segment
from wordsegment import segment
help(wordsegment)
load()
segment("rollersharp")
['roller', 'sharp']

字典来自以下链接: https://github.com/grantjenks/python-wordsegment/tree/master/wordsegment

2 个答案:

答案 0 :(得分:0)

自定义词典的使用在official docs中有很好的涵义。

要扩展现有语料库,您需要更新wordsegment.UNIGRAMSwordsegment.BIGRAMS

答案 1 :(得分:0)

如果您想制作新词典,请点击此链接http://www.grantjenks.com/docs/wordsegment/using-a-different-corpus.html。如果要在现有词典中添加单词

import wordsegment as ws
ws.bigram_counts['my text'] = 10.2e6 #basing on number of google search results returned
ws.segment('my text')

希望这有帮助。