为了在python中分割单词,我使用了wordsegment库,它已经内置了字典,基于这些字词被分割出来。有人能告诉我如何在字典中添加更多单词吗?代码如下:
import wordsegment as ws
from wordsegment import load, segment
from wordsegment import segment
help(wordsegment)
load()
segment("rollersharp")
['roller', 'sharp']
字典来自以下链接: https://github.com/grantjenks/python-wordsegment/tree/master/wordsegment
答案 0 :(得分:0)
自定义词典的使用在official docs中有很好的涵义。
要扩展现有语料库,您需要更新wordsegment.UNIGRAMS
和wordsegment.BIGRAMS
答案 1 :(得分:0)
如果您想制作新词典,请点击此链接http://www.grantjenks.com/docs/wordsegment/using-a-different-corpus.html。如果要在现有词典中添加单词
import wordsegment as ws
ws.bigram_counts['my text'] = 10.2e6 #basing on number of google search results returned
ws.segment('my text')
希望这有帮助。