Question

我有数百个电子邮件主题行的列表。对于每个主题行，我都有电子邮件开放率（已打开的电子邮件/已发送电子邮件）值。例如： list of subject lines

我想了解平均开放率是否对某些词有影响。

例如，如果我在电子邮件主题栏中写下“谢谢”字样，电子邮件开放率会更高。

如果我理解逻辑步骤，我需要建立电子邮件主题行中所有单词的列表，并为每个单词在所有主题行之间做平均值。例如： average per word

有人可以帮我用R做吗？我认为有文本挖掘包可以提供帮助。

感谢!!!

Answer 1

为什么不尝试使用标题中的单词作为自变量进行逻辑回归。或者，如果单词数量很少或者您能够对单词进行分组，则可能是多元回归。

Answer 2

据我所知，您的主要问题是拆分包含电子邮件标题的字符串。

您可以使用strsplit()功能执行此操作。
例如：
yourstring <- "A string, full of punctuation ! And spaces !" tosplit <- c(" ", "!", ...) matrix <- strsplit(yourstring, tosplit)

然后我想你可以使用一个循环将矩阵的每个单词放在数据集的一列中（如果您愿意，也应该将所有单词更改为小写：tolower(matrix)）

之后，您的数据框架的table()或summary()肯定会帮助您更好地实现可视化。

至于文本挖掘软件包，我不知道，但我认为有一些。

Answer 3

所以在看到所有评论后，我尝试将其组织成一段代码。适合我。谢谢大家。

QLabel

如何将单词与句子分开并做到平均？使用R进行文本挖掘

3 个答案: