从数据框创建大型文档术语矩阵

时间:2016-10-07 17:58:57

标签: python pandas numpy nltk

我需要创建一个文档 - 大量文本的术语矩阵。在我创建它之后(每列一个单词),我需要标准化所有单词'频率并最终总结它们。尽管如此,我仍然坚持:

假设我的例子是:speech=[['7/10/2016', 'cat','dog', 'I have a speech to be stemmed here'], ['6/10/2016', 'dog', 'mouse', 'Here is another text']]

df = pd.DataFrame.from_records(
((r[0], r[1], r[2], r[3]) for r in speech),
columns=["Date", "Name", "Surname", "Speech"])

在这里,我有这个DataFrame,每行都有一个语音[3]。我需要首先阻止" speech"中包含的数据,然后创建dtm。我知道如何在列表列表时阻止数据,但我无法处理数据帧。

最后,您能否给我一些关于如何标准化列并对它们求和的一些线索(以获得文本中单词的汇总标准化频率)?

0 个答案:

没有答案