R webcorpus属性提取

时间:2014-07-20 13:14:28

标签: r attributes text-mining tm corpus

我正在使用 tm.plugin.webmining 使用以下命令获取有关某公司的最新消息

corpus<-WebCorpus(GoogleBlogSearchSource(stock))

当我运行 meta(语料库[[1]])时,我得到了

  

元数据:

     
    

作者:character(0)     datetimestamp:2014-07-17 20:28:10     描述:微软裁员ÃÃ,¢ÃÂ,Ã,ƒÃ,Â,“对于MSFT StockInvestorplace.com意味着什么,而裁员显然是明显的     对投资者来说,这将是最艰难的,因为我们仍然需要投资者     理性和客观地看待公司,看看它意味着什么     对于MSFTÃÃ,ÂÃÂ,Ã,ƒÃ,Â,Â,“特别是如果你是个人的     微软股票持有人......为什么微软(MSFT)股票上涨     TodayTheStreet.comEarnings预览:微软公司(MSFT),     Apple Inc(AAPL),Facebook ......国际商业时报做什么     微软的裁员计划告诉我们Satya Nadella的愿景吗?Motley     FoolTechInsiderÂ-Innsider Monkey(博客)全部2,176条新闻文章»     标题:MicrosoftLayoffsâÃ,€,“对MSFT股票意味着什么 - Investorplace.com     id:tag:news.google.com,2005:cluster = http://investorplace.com/2014/07/microsoft-layoffs-means-msft-stock/     语言:字符(0)     来源:http://news.google.com/news/url?sa=t&fd=R&ct2=us&usg=AFQjCNEadqFvThyxvJU3O5uHa6wiyoWNEw&clid=c3a7d30bb8a4878e06b80cf16b898331&cid=52778559643673&ei=Cr3LU8jGNMnNkwX_lYCICQ&url=http://investorplace.com/2014/07/microsoft-layoffs-means-msft-stock/

  

所以在这里我看到不同的属性在这里,但是当我运行时

Headers<-sapply(meta(corpus,FUN=function(x){attr(x,"heading")})

标题是包含空值的100个项目的列表。我很确定这个特定的代码几天后就运行了。两者之间发生了变化,我重新安装了新系统上的软件包,并将R更新为3.1.1而不是R 3.1.0(之前的版本)

我可以做些什么来获取标题,描述时间戳等的单独列表,我后来想要将其转换为100X3数据帧。

1 个答案:

答案 0 :(得分:0)

使用最新的R,请尝试以下代码:

代码:

headers<-meta(corpus,tag="heading")