我在CSV中有成对的客户反馈数据,表示客户是否推荐了他们收到的服务(1或0),“rec”以及相关评论“评论”。我试图比较那些推荐服务的人和没有推荐服务的人之间的客户反馈。
我使用tm软件包只是用 条评论读取CSV中的所有行,并对所有评论进行后续文本挖掘,这些评论有效:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x))
现在我试图通过包含“rec”列来比较那些推荐的客户和那些不推荐的客户的评论,但是我无法从单列CSV创建语料库 - 我尝试了以下方法:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x$comment))
但我收到错误
"Error in if (vectorized && (length <= 0))
stop("vectorized sources must have positive length") :
missing value where TRUE/FALSE needed"
我还尝试在创建主题模型后将“rec”代码绑定到注释,但某些注释最终会被“topic”函数过滤,因此“rec”列比结果中的文档数量更长主题模型。
如果我能用tm包这么简单吗?我根本没有使用过qdap软件包,但这里有什么更合适的东西吗?
答案 0 :(得分:0)
......正如本提到的那样:
vec <- as.character(x[,"place of comments"])
Corpus(VectorSource(vec))
也许某些客户ID作为元数据会很好......
HTH