我正在开发一种工具,允许用户汇总所选文本。
我想通过确定文本中最重要句子的x量(由用户决定/根据文本长度计算)来做到这一点,然后对于每个“核心句子”,我想要伴随句子x与该核心句子最相关/相似的句子数量。这样,我希望能够在几行中覆盖文本的多个重要部分,而不是文本的一个大部分(主题)。我知道并非每个文本都有多个主题可以充分拥有多个核心句子,核心句子和相关句子的数量将取决于文本本身。
为了确定这些重要的句子,我目前基于this guide的例子,它使用句子之间的交叉点分数来对文本的每个句子进行排名。到目前为止,这已经取得了不错的成果,但有时结果并不像定性那样。
因此,我正在寻找其他方法来提取最重要的句子。经过一些搜索后,Levenshtein distance会弹出几次作为比较字符串的方法。
我可以使用 Levenshtein距离来计算每个句子之间的LD并添加每个句子的总LD数量,返回具有最低聚合Levenshtein距离数的x个句子数量 - 这是导致文本中最重要句子的代表性排名?
如果没有,我应该坚持交叉方法还是应该考虑替代方法?
我也在考虑使用tf–idf来“预处理”一个句子,以便只在文本句子中保留有价值的单词。