我尝试使用spacy
的相似性函数来获得文档中最匹配的句子。但是,对于项目符号要点失败,因为它将每个项目符号视为一个句子并且项目符号是不完整的句子(例如,句子1“密码应至少8个字符长,句子2以项目符号“ 8个字符”的形式)。知道它是指密码,所以我的相似度很低。
答案 0 :(得分:0)
听起来像我,您在尝试使用相似性之前需要进行更多的文本处理。如果要将项目符号点视为句子的一部分,则需要修改spacy管道才能理解。
答案 1 :(得分:0)
考虑了子弹,但问题是它不明白是指8个字符,所以我想到了寻找段落标题并将其替换为子弹
我找到了使用python docs的标题,但是在阅读文档时却没有读取项目符号,有没有办法我可以使用python docs来阅读它?
有什么办法可以使我找到一个段落的标题吗?
有没有更好的方法
答案 2 :(得分:0)
您实际上可以修改 spaCy 的句子化器以将项目符号点识别为句子边界,但更简单的方法是改用 sentence-transformers 库。在这种情况下,你的句子中是否有项目符号并不重要。