如何最好地在消息流中标识消息关键字,以便可以搜索“相似”? 以新闻聚合器为例,其中消息被组合为故事。 最好使用Python。
现在,我使用spaCy和Textacy库搜索关键字。然后,我寻找相交点并按匹配关键字总权重的升序对其进行排序。 但是这种方法对邮件的分组非常糟糕。
key_terms = textacy.keyterms.key_terms_from_semantic_network(
doc,
normalize=normalize,
window_width=15,
n_keyterms=30
)