使用xml2包读取大型XML文件并尝试创建工作闭包的问题

时间:2016-02-02 14:04:27

标签: xml r xml2

我使用xml2包将一个巨大的XML文件读入内存,命令失败并出现以下错误:

  

错误:字符0x0超出允许范围[9]

我的代码如下所示:

library(xml2)
doc <- read_xml('~/Downloads/FBrf.xml')

数据可以在ftp://ftp.flybase.net/releases/FB2015_05/reporting-xml/FBrf.xml.gz下载(约140MB),解压后大约1.8GB。

有没有人建议如何在阅读之前弄清楚哪些字符有问题或如何清理文件。

修改

好的,由于文件非常大,我在堆栈溢出时搜索了其他解决方案,并试图实现Martin Morgan的解决方案,他在这里提出Combine values in huge XML-files

所以我到目前为止所做的是以下几行代码

library(XML)
branchFunction <- function(progress=10) {
    res <- new.env(parent=emptyenv())   # for results
    it <- 0L                            # iterator -- nodes visited
    list(publication=function(elt) {
        ## handle 'publication' nodes 
        if (getNodeSet(elt, "not(/publication/feature/id)"))
            ## early exit -- no feature id
            return(NULL)
        it <<- it + 1L
        if (it %% progress == 0L)
            message(it)
        publication <- getNodeSet(elt, "string(/publication/id/text())") # 'key'
        res[[publication]] <-
            list(miniref=getNodeSet(elt,
                   "normalize-space(/publication/miniref/text())"),
                 features= xpathSApply(elt, "//feature/id/text()", xmlValue))
    }, getres = function() {
        ## retrieve the 'res' environment when done
        res
    }, get=function() {
        ## retrieve 'res' environment as data.frame
        publication <- ls(res)
        miniref <- unlist(eapply(res, "[[", "miniref"), use.names=FALSE)
        feature <- eapply(res, "[[", "features")
        len <- sapply(feature, length)
        data.frame(publication=rep(publication, len),
                   feature=unlist(feature, use.names=FALSE), 
                   miniref=rep(miniref, len))
    })
}

branches <- branchFunction()
xmlEventParse("~/Downloads/jnk.xml", handlers=NULL, branches=branches)
# xmlEventParse("~/Downloads/FBrf.xml", handlers=NULL, branches=branches)
branches$get()

我将xml文件上传到我的服务器http://download.dejung.net/jnk.xml

该文件只有几个kb,但问题是结果。第二个发布条目的id为 FBrf0162243 ,并且Schwartz et al., 2003, Mol. Cell. Biol. 23(19): 6876--6886为miniref。

我上面发布的代码的结果报告了相应miniref的错误发布ID。功能ID是正确的....

  

FBrf0050934 FBgn0003277 Schwartz等,2003,Mol。细胞。生物学。 23(19):6876--6886

不确定为什么我的代码报告的值不正确,也许有人可以帮我解决问题,因为这对我来说很新。

2 个答案:

答案 0 :(得分:1)

我偶尔会遇到&#34;嵌入式NULL&#34;可能与此类似的错误消息(如果此消息中的0x0表示相同的NULL问题)。我的方法是在读取文件之前尝试删除它们,因为我还没有找到忽略它们的R包。

如果您使用的是Unix或OS X,则可以通过以下方式在R程序中调用sed

system( 'sed "s/\\0//g" ~/Downloads/dirty.xml > ~/Downloads/clean.xml' )

如果没有这个诀窍,你可能想要扩展这个&#34;黑名单&#34;字符 - 请参阅例如Unicode Regex; Invalid XML characters

如果出现问题,有时我会将字符列入白名单 - 删除不在指定字符集中的所有内容。

sed 's/[^A-Za-z0-9 _.,"]//g' ~/Downloads/dirty.csv > ~/Downloads/clean.csv

这是我用于.csv数据文件的那个(不关心</etc.>),因此您可能希望将其扩展为[^[:ascii:]]:< / p>

如果您使用的是Windows,则可能需要在R之外使用此方法 - 例如,您可以使用Cygwin而不是上面的system()调用。

答案 1 :(得分:1)

在命令行中,我在您的文件上运行了命令iconv -f utf-8 -t utf-8 FBrf.xml > outfile.xml 。它使眼睛看得很清楚,但我没有安装R来测试它。

(如果在Windows上,则需要安装cygwin才能访问iconv)