如何找到两个文档之间的相似性

时间:2019-04-12 12:06:29

标签: python-3.x spacy

我尝试使用spacy的相似性函数来获得文档中最匹配的句子。但是,对于项目符号要点失败,因为它将每个项目符号视为一个句子并且项目符号是不完整的句子(例如,句子1“密码应至少8个字符长,句子2以项目符号“ 8个字符”的形式)。知道它是指密码,所以我的相似度很低。

3 个答案:

答案 0 :(得分:0)

听起来像我,您在尝试使用相似性之前需要进行更多的文本处理。如果要将项目符号点视为句子的一部分,则需要修改spacy管道才能理解。

答案 1 :(得分:0)

考虑了子弹,但问题是它不明白是指8个字符,所以我想到了寻找段落标题并将其替换为子弹

我找到了使用python docs的标题,但是在阅读文档时却没有读取项目符号,有没有办法我可以使用python docs来阅读它?

有什么办法可以使我找到一个段落的标题吗?

有没有更好的方法

答案 2 :(得分:0)

您实际上可以修改 spaCy 的句子化器以将项目符号点识别为句子边界,但更简单的方法是改用 sentence-transformers 库。在这种情况下,你的句子中是否有项目符号并不重要。