我有一系列产品描述数据,我需要从中提取功能。我正在尝试将行转换为bigrams然后我正在提取功能 使用以下代码:
finder = BigramCollocationFinder.from_words(description)
scored = finder.score_ngrams(bgm.likelihood_ratio)
执行上面的代码后,描述中的所有行都会被连接起来,并形成以下的双字母组合。
例如:
描述
**Description**
running cleaning observed cooling cleaned
rectangu minuteria fplease rectanglur
我正在获得二元输出:
(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(cleaned,rectangu),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )
但我要求的输出是:
(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )
差异是bigram (clean,rectangu)由第一行的最后一个单词和下一行的第一个单词组成,依此类推。
有人可以帮我解决这个问题吗?