在我的一项任务中,我遇到了这样的问题。
研究并实施以下无监督字符串比较算法。使用它们来衡量数据集中句子对之间的相似性。 使用训练集在必要时调整算法参数。
Jaccard coefficient
Levenshtein distance
Jaro distance
这些是我得到的算法。
此外,我已将部分数据作为训练数据集
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
Kriss Kross ||| The Mack Daddy of Kriss Kross ||| RIP former Kriss Kross member Chris Kelly ||| False
Body Party ||| I liked that video body party ||| that damn body party song is stuck in my head ||| False
Corey Brewer ||| Second of all What the hell is Corey Brewer doing ||| Corey Brewer needs to go Dleague ||| True
有人可以通过调整算法参数让我知道这意味着什么。
我对此感到困惑。