Question

在我的一项任务中，我遇到了这样的问题。

研究并实施以下无监督字符串比较算法。使用它们来衡量数据集中句子对之间的相似性。 使用训练集在必要时调整算法参数。

Jaccard coefficient
Levenshtein distance
Jaro distance

这些是我得到的算法。

此外，我已将部分数据作为训练数据集

TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING

Kriss Kross ||| The Mack Daddy of Kriss Kross ||| RIP former Kriss Kross member Chris Kelly ||| False

Body Party ||| I liked that video body party ||| that damn body party song is stuck in my head ||| False

Corey Brewer ||| Second of all What the hell is Corey Brewer doing ||| Corey Brewer needs to go Dleague ||| True

有人可以通过调整算法参数让我知道这意味着什么。

我对此感到困惑。

字符串比较算法

0 个答案: