从消息中获取关键字

时间:2019-12-12 03:34:19

标签: python nlp nltk gensim text-classification

我的目的是文本摘要,不确定我是否做对了,但这是计划。我有一个名为train_data的数据框。每行中的每个单元格都包含消息。现在,我希望使用gensim.summarization.keyword包遍历dataframe列中的每个单元格或每个消息,以从每个消息中获取关键字。

我知道关键字函数将文本作为输入,并且我无法传递整个df列,因此尝试将关键字函数中的每个单元格作为文本进行迭代,但似乎不起作用。我在这里想念什么?这是我的代码。

cols = train_data.new_msg
for col in cols:
    cols

train_data['keywords'] = keywords(col)

然后,我计划计算原始消息与新消息(即关键字列)的长度,以得出压缩率/比率。

1 个答案:

答案 0 :(得分:0)

train_data['keywords'] = train_data['Name of column which contain text'].apply(lambda x: keywords(x).replace('\n', ', '))