我有一个大的数据框(约470万行),其中的一列包含文档文本。我尝试在整个数据帧的特定列上运行Gensim摘要失败。
df['summary'] = df['variable_content'].apply(lambda x: summarize(x, word_count=200))
将variable_content
的每一行提取到一个变量中并运行Summary可以很好地工作,但是很慢而且很丑。我也收到错误:
ValueError: input must have more than one sentence
,但是找不到只有一个句子的行(大多数是几百/千)。有人可以帮忙吗?
答案 0 :(得分:0)
您有470万行,每行有数百或数千个句子,您希望它能在有限的时间内工作吗?这就是我所谓的“乐观主义”。我建议循环遍历数据帧,并以大约1000行的块的形式运行您的事物,在进行过程中保存工作,并在进行过程中打印出块的数量。一旦失败,您将大致了解失败的位置,并且您实际上会得到一些结果。