Question

我已将我的webCorpus的100个文本文档保存到单个文件中

lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000)
meta(gsrc[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:46:47
Description  : BDliveShutdown Will ..........................
Heading      : Shutdown Will Hinder True Gauge of US Economy - New York Times
ID           :

因为我保存到单个文件中所以会阅读

cop <- Corpus(DirSource("/home/ashish/tm_web/23", encoding = "UTF-8"),readerControl = list(language = "lat")) 
meta(cop[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:38:20
Description  : 
Heading      : 
ID           : ABC22.txt
Language     : lat
Origin       :

是否有可能获取已保存语料库的元数据或者我必须保存100个文本文件才能将元（警察）设为元（gsrc）或者我是否必须保存meta（gsrc [[1]]）才能找回它，任何帮助，谢谢。

Answer 1

你可以这样做。我正在使用crude包中的tm数据来显示以下内容。我想你可以轻松地改变代码，将它与你的代码一起使用。

## For each tag , for each corpus , I apply meta
##  to get a list of list (list of tags, for each tag a list of metas)
library(tm)
data("crude")
tags <- c('DateTimeStamp','Heading')
res <- lapply(tags,function(tag)
  lapply(crude,meta,tag))
names(res) <- tags
## I save the list
save(res,file = "meta.RData")

现在我加载已保存的元数据，然后执行相反的工作。

## load the data 
load("meta.RData")
## for each tag, for each corpus, assign the meta
for(tag in tags){
      meta.tag <- res[[tag]]
      lapply(seq_along(crude),function(y)
             meta(crude[[y]],tag) <- meta.tag[[y]])
}

获取已保存的WebCorpus的元数据

1 个答案: