由于XML文件中的意外标记,无法从R中的XML读取语料库

时间:2015-02-10 21:35:34

标签: xml r parsing

这是我收到错误的代码:

myXMLReader <- readXML(
  spec = list(Content = list("node", "/DOC/TEXT"),
              ID = list("node", "/DOC/DOCNO")),
  doc = PlainTextDocument())
corpusF <- paste(basepath,"corpus",sep="")
myCorpus <- Corpus(DirSource(corpusF),readerControl = list(reader = myXMLReader))

我得到的错误是:

Error: 1: Opening and ending tag mismatch: a0 line 5 and TEXT
2: Opening and ending tag mismatch: a0 line 5 and DOC
3: Premature end of data in tag a0 line 5
4: Premature end of data in tag a0 line 5
5: Premature end of data in tag TEXT line 4
6: Premature end of data in tag DOC line 2

其实我在这里尝试读取XML文件。当我在我的Mac上运行相同的代码时它运行得很好,但我在Ubuntu中收到此错误。 到目前为止,我已经想到的是:如果我读取导致错误并将其转换为文本文件的XML文件,在很少的地方而不是空格M-出现,这就是为什么R告诉我们过早结束标签中的数据。 我的问题是,为什么相同的代码能够正确读取XML文件而另一个不能以及如何解决这个问题?这个问题与环境语言以及如何在该环境中读取XML文件有关吗?

0 个答案:

没有答案