比较字符串的相似性 - 基于Word内容

时间:2017-12-15 21:43:35

标签: r

我目前正在努力比较两组调查问题。我的目标是找到可能以不同方式提出问题的问题。如果失败,我们将不得不手动创建人行横道参考,考虑到所需的努力量,这是不受欢迎的。我之前认为可能有一种更简单的方法可以用R来处理非结构化数据。我现在卡住了,希望得到一些提示。

对于玩具示例:

  1. “你喜欢狗吗?”
  2. “你爱狗吗?”
  3. “你喜欢猫吗?”
  4. “你喜欢狗吗?”
  5. 使用1作为参考,Levenshtein距离将有利于2,但是等级3高于4.我已经为这个用例实施了Levenshtein,但我在桌面上留下了很多好的对。这让我接受了挑战,我怀疑它的一部分根本就是不知道在哪里寻找或利用什么概念/技术。

    创意1 - 做一些“词袋”比较,其中内容被天真地比较。这将改善我的纯Levenshtein距离方法,但在玩具示例中,它会建议1和3比1和4更好的配对。即使这不完美,看起来它可能会有所帮助,我会很感激被指向R中可以执行此操作的任何包或函数。

    创意2 - 想出一种让“狗”成为高度加权关键字的方法,这会将1和2以及1和4识别为良好的对。这是理想的结果,但创建和维护某种关键字存储库将是一件痛苦的事。如果有一个优雅/相对简单的方法来实现这一点,我就是全部的耳朵。

    作为参考,我的过程合并两个调查,然后计算LHS和RHS文本的L距离。输出目前看起来像这样:

    LHS_TEXT | RHS_TEXT | Levenshtein_Dist

    你喜欢狗吗?你喜欢狗吗? 2

    你喜欢狗吗?你喜欢猫吗? 3

    你喜欢狗吗?你喜欢狗吗? 20

    理想情况下,我想继续在右边创建“分数”,然后创建某种考虑L距离,单词相似性等的相似性的复合度量。

    Stackoverflow新手,请告诉我如果这是一个障碍,我可以如何提高问题的质量。

0 个答案:

没有答案