我想从R中的文本中提取与保险服务相关的关键字。我创建了关键字列表并使用了qdap
库中的常用函数。
bag <- bag_o_words(corpus)
b <- common(bag,keywords,overlap="all")
但结果只是频率超过1的常用词。
我还使用了RKEA
库。
keywords <- c("directasia", "directasia.com", "Frank", "frank", "OCBC", "NTUC",
"NTUC Income", "Frank by OCBC", "customer service", "atm",
"insurance", "claim", "agent", "premium", "policy", "customer care",
"customer", "draft", "account", "credit", "savings","debit","ivr",
"offer", "transacation", "banking", "website", "mobile", "i-safe",
"customer", "demat", "network", "phone", "interest", "loan",
"transfer", "deposit", "otp", "rewards", "redemption")
tmpdir <- tempfile()
dir.create(tmpdir)
model <- file.path(tmpdir, "crudeModel")
createModel(corpus,keywords,model)
extractKeywords(corpus, model)
但是我收到以下错误
createModel中的错误(语料库,关键字,型号):文档和关键字的数量不匹配
和
.jcall错误(ke,&#34; V&#34;,&#34; extractKeyphrases&#34;,。jcall(ke,Ljava / util / Hashtable;&#34;,:java.io.FileNotFoundException) :C:\ Users \ Bitanshu \ AppData \ Local \ Temp \ RtmpEHu9uA \ file14c4160f41c2 \ crudeModel(系统找不到指定的文件)
我认为第二个错误是因为createModel
不成功。
有人可以建议如何纠正这种或另一种方法吗? 文本数据已从twitter中提取。
答案 0 :(得分:2)
您可以尝试 quanteda 套餐。我建议使用GitHub版本而不是CRAN版本,因为就在两天前我对free(work.pixelData);
函数进行了大修。例如:
kwic()
答案 1 :(得分:0)
你应该对createModel使用以下格式,即使你不打算使用所有部分,也需要提及它们
createModel(语料库,关键字,模型,voc =&#34;无&#34;,vocformat =&#34;&#34;)