R中的多类分类

时间:2016-03-26 15:31:09

标签: r twitter multilabel-classification

我有特定帐户的推文,我想浏览每条推文,并分类为商业,音乐,体育等类标签。

我创建培训数据的方法是为每个类标签分配几个关键字,例如

  1. “商业”的关键词可能是 - 企业家,工作,GDP ......
  2. “音乐”的关键词可以是 - 歌曲,流派,专辑......
  3. 。训练数据的.CSV文件有2列 1.关键词 2.班级

    这是正确的方法吗?

    提前谢谢!

1 个答案:

答案 0 :(得分:0)

您尝试做的似乎与字典方法类似。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议使用Kenneth Bennoits优秀的Quanteda软件包。

更具体地说,您可以从术语列表中创建自定义词典(我相信的s3类)。

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

然后使用applyDictionary应用字典。你会得到一个包含文本和字典键的漂亮表格,如下所示:

docs    christmas opposition taxglob taxregex country
  text1         1          1       1        0       0
  text2         0          0       1        0       2