我有特定帐户的推文,我想浏览每条推文,并分类为商业,音乐,体育等类标签。
我创建培训数据的方法是为每个类标签分配几个关键字,例如
。训练数据的.CSV文件有2列 1.关键词 2.班级
这是正确的方法吗?
提前谢谢!
答案 0 :(得分:0)
您尝试做的似乎与字典方法类似。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议使用Kenneth Bennoits优秀的Quanteda软件包。
更具体地说,您可以从术语列表中创建自定义词典(我相信的s3类)。
https://cran.r-project.org/web/packages/quanteda/quanteda.pdf
然后使用applyDictionary应用字典。你会得到一个包含文本和字典键的漂亮表格,如下所示:
docs christmas opposition taxglob taxregex country
text1 1 1 1 0 0
text2 0 0 1 0 2