我正在尝试从员工满意度调查中创建主题分类器。该调查包含几个评论字段,因此希望产生一种有效的方式来对单个评论的内容进行分类,以及后来是否为正或负(非常标准的情绪分析)。 我已经有了去年调查的样本数据,其中评论已经手动给出了一个类别。
数据结构为CSV文件,包含三行:
文件(或评论) - 主题 - 情绪
一个例子可能是:
文件:我害怕客户的暴力,因为我的职位没有足够的安全性
主题:暴力
情绪:消极
(非常粗略的例子,但请耐心等待)
我制作这个分类器的工具是RStudio,但我只能访问有限数量的包。我无权访问tm或RTextTools,这是我在工作之外做项目时经常使用的软件包。我几乎只能访问e1071,这就是为什么我认为支持向量机可能会做到这一点。在处理文本分析时,我对NaiveBayes有不好的经历,但我当然愿意接受任何建议。是否可以在没有tm或RTextTools的情况下进行文本挖掘?我可以访问NLP和tau包
答案 0 :(得分:0)
来自predict.svm
# S3 method for svm
predict(object, newdata, decision.values = FALSE,
probability = FALSE, ..., na.action = na.omit)
您可以将概率选项设置为TRUE
。
即。 predict(foo,bar, probability = TRUE)