ReutersSource in R

时间:2016-01-17 10:01:44

标签: r tm reuters

library(tm)  
reut21578 <- system.file("texts", "crude", package = "tm")  
reuters <- Corpus(DirSource(reut21578), 
                  readerControl = list(reader = readReut21578XML))  
file <- "reut-0001.xml"   
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))  

我正在使用tm包来访问路透社数据,但在路透社中我收到了错误

  

继承错误(x,“Source”):找不到函数“ReutersSource”

1 个答案:

答案 0 :(得分:0)

我认为开发人员已从tm软件包的源代码中删除了ReutersSource()

如果要读入单个特定文件,可以将过滤器表达式传递给DirSource()函数,如下所示:

reuters <- Corpus(DirSource(reut21578, pattern = "00001.xml"), 
                   readerControl = list(reader = readReut21578XMLasPlain))

   cat(content(reuters[[1]]))

结果:

  

Diamond Shamrock Corp表示今天有效削减了它   原油合同价格   每桶1.50 dlrs。       该公司表示,这一减少使西德克萨斯中质原油的价格达到每桶16.00立方米。       “今天的降价是因为石油产品价格下跌和原油市场疲软,”公司发言人表示   说过。       钻石是一系列美国石油公司中的最新一家,这些公司在过去两天因疲软而削减了合约或贴现价格   石油市场。路透