用于python的机器学习工具处理文本数据中术语的潜在匹配

时间:2016-02-15 14:59:06

标签: python machine-learning

我打算编写一个读取文本输入数据的脚本。这将由某些术语组成,例如红车"。

如果我想在术语和句子数据库中识别文本输入数据中与术语的潜在匹配,我应该使用哪些python机器学习工具。

例如,我想要类似拼写的术语(例如拼写错误的术语),例如" redd car"被识别并列在我的脚本输出中。

编辑1:我有一种使用FuzzyWuzzy识别字符串相似性的方法,以返回两个字符串彼此相似的数字表示。我现在的问题是如何将数据库中的单词划分为"类似的"和"不相似"使用机器学习方法。

1 个答案:

答案 0 :(得分:1)

在不了解您的设置的情况下,我建议您为项目使用scikit-learn个包。它几乎支持机器学习的各个方面,包括但不限于:

  • 分类
  • 回归
  • 群集
  • 维度降低
  • 型号选择
  • 预处理