python - 从数据框创建大型文档术语矩阵

我需要创建一个文档 - 大量文本的术语矩阵。在我创建它之后（每列一个单词），我需要标准化所有单词＆＃39;频率并最终总结它们。尽管如此，我仍然坚持：

假设我的例子是：speech=[['7/10/2016', 'cat','dog', 'I have a speech to be stemmed here'], ['6/10/2016', 'dog', 'mouse', 'Here is another text']]

df = pd.DataFrame.from_records(
((r[0], r[1], r[2], r[3]) for r in speech),
columns=["Date", "Name", "Surname", "Speech"])

在这里，我有这个DataFrame，每行都有一个语音[3]。我需要首先阻止＆＃34; speech＆＃34;中包含的数据，然后创建dtm。我知道如何在列表列表时阻止数据，但我无法处理数据帧。

最后，您能否给我一些关于如何标准化列并对它们求和的一些线索（以获得文本中单词的汇总标准化频率）？