将定性用户数据与文本挖掘结果进行配对

时间:2013-08-05 14:59:19

标签: r csv text-mining tm

我在CSV中有成对的客户反馈数据,表示客户是否推荐了他们收到的服务(1或0),“rec”以及相关评论“评论”。我试图比较那些推荐服务的人和没有推荐服务的人之间的客户反馈。

我使用tm软件包只是用 条评论读取CSV中的所有行,并对所有评论进行后续文本挖掘,这些评论有效:

>file_loc <- "C:/Users/..(etc)...file.csv"    
x <- read.csv(file_loc, header = TRUE)   
require(tm)   
fdbk <- Corpus(DataframeSource(x))

现在我试图通过包含“rec”列来比较那些推荐的客户和那些不推荐的客户的评论,但是我无法从单列CSV创建语料库 - 我尝试了以下方法:

>file_loc <- "C:/Users/..(etc)...file.csv"    
x <- read.csv(file_loc, header = TRUE)   
require(tm)   
fdbk <- Corpus(DataframeSource(x$comment))

但我收到错误

"Error in if (vectorized && (length <= 0))
stop("vectorized sources must have positive length") : 
missing value where TRUE/FALSE needed"

我还尝试在创建主题模型后将“rec”代码绑定到注释,但某些注释最终会被“topic”函数过滤,因此“rec”列比结果中的文档数量更长主题模型。

如果我能用tm包这么简单吗?我根本没有使用过qdap软件包,但这里有什么更合适的东西吗?

1 个答案:

答案 0 :(得分:0)

......正如本提到的那样:

vec <- as.character(x[,"place of comments"])
Corpus(VectorSource(vec))

也许某些客户ID作为元数据会很好......

HTH