基于词典的字符串标记化的maxmatch算法无可能性

时间:2012-09-17 06:28:12

标签: python

我试图在没有概率的情况下为基于词典的字符串标记化实现maxmatch算法。我不知道从哪里开始。有人有想法吗?

2 个答案:

答案 0 :(得分:0)

首先,您需要一个指标来衡量单词与其中一个令牌的距离。 python库difflib绝对是帮助您实现这一目标的良好开端。

目前尚不清楚,您是想将整个文字与关键字(例如搜索字词)匹配,还是只想将单个字词与词典中的每个字词匹配。

在这两种情况下,difflib文档都可能会有所帮助。

答案 1 :(得分:0)

MaxMatch已经实施。下面的示例实现。您不需要从头开始,您可以分叉下面的GitHub存储库并根据您的要求进行增强。

https://github.com/saurabhsood91/maxmatch

必须:

  • 无论您在何处展示您的作品,都可以参考此存储库。
  • 使用您已实施的改进措施回复作者。
  • 让社区了解您的方法有何不同&更好。