library(tm)
reut21578 <- system.file("texts", "crude", package = "tm")
reuters <- Corpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XML))
file <- "reut-0001.xml"
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))
我正在使用tm包来访问路透社数据,但在路透社中我收到了错误
继承错误(x,“Source”):找不到函数“ReutersSource”
答案 0 :(得分:0)
我认为开发人员已从tm软件包的源代码中删除了ReutersSource()
。
如果要读入单个特定文件,可以将过滤器表达式传递给DirSource()
函数,如下所示:
reuters <- Corpus(DirSource(reut21578, pattern = "00001.xml"),
readerControl = list(reader = readReut21578XMLasPlain))
cat(content(reuters[[1]]))
结果:
Diamond Shamrock Corp表示今天有效削减了它 原油合同价格 每桶1.50 dlrs。 该公司表示,这一减少使西德克萨斯中质原油的价格达到每桶16.00立方米。 “今天的降价是因为石油产品价格下跌和原油市场疲软,”公司发言人表示 说过。 钻石是一系列美国石油公司中的最新一家,这些公司在过去两天因疲软而削减了合约或贴现价格 石油市场。路透