汇总Pandas数据框列

时间:2020-05-24 18:30:54

标签: python pandas dataframe gensim

我有一个大的数据框(约470万行),其中的一列包含文档文本。我尝试在整个数据帧的特定列上运行Gensim摘要失败。

df['summary'] = df['variable_content'].apply(lambda x: summarize(x, word_count=200))

variable_content的每一行提取到一个变量中并运行Summary可以很好地工作,但是很慢而且很丑。我也收到错误:

ValueError: input must have more than one sentence

,但是找不到只有一个句子的行(大多数是几百/千)。有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

您有470万行,每行有数百或数千个句子,您希望它能在有限的时间内工作吗?这就是我所谓的“乐观主义”。我建议循环遍历数据帧,并以大约1000行的块的形式运行您的事物,在进行过程中保存工作,并在进行过程中打印出块的数量。一旦失败,您将大致了解失败的位置,并且您实际上会得到一些结果。