我需要创建一个文档 - 大量文本的术语矩阵。在我创建它之后(每列一个单词),我需要标准化所有单词'频率并最终总结它们。尽管如此,我仍然坚持:
假设我的例子是:speech=[['7/10/2016', 'cat','dog', 'I have a speech to be stemmed here'], ['6/10/2016', 'dog', 'mouse', 'Here is another text']]
df = pd.DataFrame.from_records(
((r[0], r[1], r[2], r[3]) for r in speech),
columns=["Date", "Name", "Surname", "Speech"])
在这里,我有这个DataFrame,每行都有一个语音[3]。我需要首先阻止" speech"中包含的数据,然后创建dtm。我知道如何在列表列表时阻止数据,但我无法处理数据帧。
最后,您能否给我一些关于如何标准化列并对它们求和的一些线索(以获得文本中单词的汇总标准化频率)?