R从语料库中创建二进制预测器

时间:2016-02-29 09:16:37

标签: r text-mining spam-prevention

我有一个电子邮件数据集。

结果是1(垃圾邮件)0(非垃圾邮件)。 我有几个分类和数字预测器。但我有另一个预测因子,即电子邮件的内容。

在R中,我想:

  1. 将所有电子邮件放在一起
  2. 使用这些邮件进行一些文本处理(步骤1)[删除标点符号,流式文字(即删除,复数等),删除常用词,删除大写(以及可能更多处理)。
  3. 从剩下的一句话来看:最常见的10%字词
  4. 对于每个最常见的单词,创建一个二进制预测器(如果电子邮件获得该字,则为1,否则为0)
  5. 这样的包装会存在于R?

0 个答案:

没有答案