获取已保存的WebCorpus的元数据

时间:2013-10-23 12:03:46

标签: r corpus

我已将我的webCorpus的100个文本文档保存到单个文件中

lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000)
meta(gsrc[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:46:47
Description  : BDliveShutdown Will ..........................
Heading      : Shutdown Will Hinder True Gauge of US Economy - New York Times
ID           : 

因为我保存到单个文件中所以会阅读

cop <- Corpus(DirSource("/home/ashish/tm_web/23", encoding = "UTF-8"),readerControl = list(language = "lat")) 
meta(cop[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:38:20
Description  : 
Heading      : 
ID           : ABC22.txt
Language     : lat
Origin       : 

是否有可能获取已保存语料库的元数据或者我必须保存100个文本文件才能将元(警察)设为元(gsrc)或者我是否必须保存meta(gsrc [[1]])才能找回它,任何帮助,谢谢。

1 个答案:

答案 0 :(得分:1)

你可以这样做。我正在使用crude包中的tm数据来显示以下内容。我想你可以轻松地改变代码,将它与你的代码一起使用。

## For each tag , for each corpus , I apply meta
##  to get a list of list (list of tags, for each tag a list of metas)
library(tm)
data("crude")
tags <- c('DateTimeStamp','Heading')
res <- lapply(tags,function(tag)
  lapply(crude,meta,tag))
names(res) <- tags
## I save the list
save(res,file = "meta.RData")

现在我加载已保存的元数据,然后执行相反的工作。

## load the data 
load("meta.RData")
## for each tag, for each corpus, assign the meta
for(tag in tags){
      meta.tag <- res[[tag]]
      lapply(seq_along(crude),function(y)
             meta(crude[[y]],tag) <- meta.tag[[y]])
}