r - 比较字符串的相似性 - 基于Word内容

我目前正在努力比较两组调查问题。我的目标是找到可能以不同方式提出问题的问题。如果失败，我们将不得不手动创建人行横道参考，考虑到所需的努力量，这是不受欢迎的。我之前认为可能有一种更简单的方法可以用R来处理非结构化数据。我现在卡住了，希望得到一些提示。

对于玩具示例：

使用1作为参考，Levenshtein距离将有利于2，但是等级3高于4.我已经为这个用例实施了Levenshtein，但我在桌面上留下了很多好的对。这让我接受了挑战，我怀疑它的一部分根本就是不知道在哪里寻找或利用什么概念/技术。

创意1 - 做一些“词袋”比较，其中内容被天真地比较。这将改善我的纯Levenshtein距离方法，但在玩具示例中，它会建议1和3比1和4更好的配对。即使这不完美，看起来它可能会有所帮助，我会很感激被指向R中可以执行此操作的任何包或函数。

创意2 - 想出一种让“狗”成为高度加权关键字的方法，这会将1和2以及1和4识别为良好的对。这是理想的结果，但创建和维护某种关键字存储库将是一件痛苦的事。如果有一个优雅/相对简单的方法来实现这一点，我就是全部的耳朵。

作为参考，我的过程合并两个调查，然后计算LHS和RHS文本的L距离。输出目前看起来像这样：

LHS_TEXT | RHS_TEXT | Levenshtein_Dist

理想情况下，我想继续在右边创建“分数”，然后创建某种考虑L距离，单词相似性等的相似性的复合度量。

Stackoverflow新手，请告诉我如果这是一个障碍，我可以如何提高问题的质量。