我试图在没有概率的情况下为基于词典的字符串标记化实现maxmatch算法。我不知道从哪里开始。有人有想法吗?
答案 0 :(得分:0)
首先,您需要一个指标来衡量单词与其中一个令牌的距离。 python库difflib绝对是帮助您实现这一目标的良好开端。
目前尚不清楚,您是想将整个文字与关键字(例如搜索字词)匹配,还是只想将单个字词与词典中的每个字词匹配。
在这两种情况下,difflib文档都可能会有所帮助。
答案 1 :(得分:0)
MaxMatch已经实施。下面的示例实现。您不需要从头开始,您可以分叉下面的GitHub存储库并根据您的要求进行增强。
https://github.com/saurabhsood91/maxmatch
必须: