我已将我的webCorpus的100个文本文档保存到单个文件中
lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000)
meta(gsrc[[1]])
Available meta data pairs are:
Author :
DateTimeStamp: 2013-10-23 11:46:47
Description : BDliveShutdown Will ..........................
Heading : Shutdown Will Hinder True Gauge of US Economy - New York Times
ID :
因为我保存到单个文件中所以会阅读
cop <- Corpus(DirSource("/home/ashish/tm_web/23", encoding = "UTF-8"),readerControl = list(language = "lat"))
meta(cop[[1]])
Available meta data pairs are:
Author :
DateTimeStamp: 2013-10-23 11:38:20
Description :
Heading :
ID : ABC22.txt
Language : lat
Origin :
是否有可能获取已保存语料库的元数据或者我必须保存100个文本文件才能将元(警察)设为元(gsrc)或者我是否必须保存meta(gsrc [[1]])才能找回它,任何帮助,谢谢。
答案 0 :(得分:1)
你可以这样做。我正在使用crude
包中的tm
数据来显示以下内容。我想你可以轻松地改变代码,将它与你的代码一起使用。
## For each tag , for each corpus , I apply meta
## to get a list of list (list of tags, for each tag a list of metas)
library(tm)
data("crude")
tags <- c('DateTimeStamp','Heading')
res <- lapply(tags,function(tag)
lapply(crude,meta,tag))
names(res) <- tags
## I save the list
save(res,file = "meta.RData")
现在我加载已保存的元数据,然后执行相反的工作。
## load the data
load("meta.RData")
## for each tag, for each corpus, assign the meta
for(tag in tags){
meta.tag <- res[[tag]]
lapply(seq_along(crude),function(y)
meta(crude[[y]],tag) <- meta.tag[[y]])
}