Question

我有一系列产品描述数据，我需要从中提取功能。我正在尝试将行转换为bigrams然后我正在提取功能使用以下代码：

finder = BigramCollocationFinder.from_words(description) 
scored = finder.score_ngrams(bgm.likelihood_ratio)

执行上面的代码后，描述中的所有行都会被连接起来，并形成以下的双字母组合。

例如：

描述

**Description**
    running cleaning observed cooling cleaned
    rectangu minuteria fplease rectanglur

我正在获得二元输出：

(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(cleaned,rectangu),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )

但我要求的输出是：

(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )

差异是bigram （clean，rectangu）由第一行的最后一个单词和下一行的第一个单词组成，依此类推。

有人可以帮我解决这个问题吗？

使用二元组

0 个答案: