Question

我是R..my中的新程序员，下面给出了数据，我想从这个语料库中提取两个或更多单词。我的示例代码也在下面给出

我的公司或文件

Apple在苹果aapl mobile上的零售销售中占据首位设备比谷歌goog androidpowered的销售时间高智能手机和平板电脑占所有在线销售活动的比例根据苹果ios的ibm智能商务所有者的报告设备每平均花费和苹果面临的保证金压力 Well fargo证券将苹果股票评级下调至市场表现从跑赢大盘来看，该公司的毛利率将来临在压力下释放其下一部智能手机很可能随着无线服务提供商的退缩，被称为iphone 补贴零售库存有所下降，有时会向上移动 synaptics跟随苹果进入指纹识别市场synaptics syna a 领先的计算机和移动设备触摸界面制造商扩展到不断增长的指纹识别市场圣何塞以加利福尼亚公司吹捧其11月收购指纹识别公司有效传感器作为其中的一个组成部分 pm et apple ios beats google android in mobile shopping us retail 苹果aapl移动设备的销售额是销售额的五倍记录在谷歌goog androidpowered智能手机和平板电脑根据ibm smarter commerce周四发布的一份报告称 ibm ibm，但ibm跟踪了我们发现的零售网站
超高清弧形电视可穿戴设备在超级销量下大减价高清晰度电视可穿戴计算机和传感器以及消费者d 打印机是预计将于下周发布的产品之一消费电子产品展在拉斯维加斯正式名称为国际社会预计会吸引更多与会者 pm和苹果公司在购买苹果公司首席执行官时可能公布的四大产品蒂姆·库克谈到了新苹果令人兴奋的一年产品包括新类别，但他故意含糊不清行业分析师已经对他们对新事物的最佳猜测进行了权衡我们可以期待苹果在未来一年的产品

我已手动声明字典用于关键字提取，但问题是，我无法从此语料库中提取两个或更多关键字出现次数或频率。任何建议

我的代码示例

这是我的语料库代码

corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))

这是我的字典

which_words<-Dictionary(c("move up","sale","stock goes up"))

这是我的匹配代码

total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))

这是我的结果

inspect(total)
       Terms
Docs   move up sale stock goes up
1.txt     0      1     0

Answer 1

作为一种解决方法，您可以用一个单词连接单词：

txt <- gsub("move up","moveup",txt)
txt <- gsub("goes up","goesup",txt)
txt <- gsub("goes down","goesdown",txt)

library(tm)

corpus <- Corpus(VectorSource(txt))
which_words <- c("moveup","sale","goesup","goesdown")
total <- DocumentTermMatrix(corpus,list(dictionary = which_words))
inspect(total)
Docs goesdown goesup moveup sale
   1        1      0      1    1

但是，最好看一些情绪分析包来做到这一点。

R语言中的模式提取

1 个答案: