在网站上浏览过有关将文本标记为句子以从这些句子标记创建相似句子集的方法的信息。 NLTK,Genism,Spacy(?)。最有效的方法是什么?我有兴趣节省时间。
我有一列包含数百万行。每行包含一个带有许多句子的叙述。将一行标记为句子后,我想将它们相互比较以识别/产生相似句子的集合。我可能还需要按短语标记化,如果可能的话,请使用逗号或分号作为分隔符。
我最初的方法是使用nltk中的send_tokenize。例如,我将看第一行,然后将其矢量化(即转换为句子列表)。然后,我想将向量中的所有句子相互比较,以产生相似句子的集合。然后将每个集合缩小(标准化)为一个句子/短语,最终可以将其与列中的其他行进行比较-可能基于lemmatizer用来对相似句子进行聚类的基础。然后,我将使用Jaccard的Indexer与标记化和标准化后其他行显示的内容进行比较。
在行内然后与其他行进行比较的技术可能是简化流程中最具挑战性的部分,但是对节省时间影响最大的区域。我希望我可以结合使用列表理解和nltk的lemmatizer来比较句子。嗯,乍一看似乎令人生畏,但现在我把它写出来了,似乎有可能。