在R中将数千个XML文件转换为CSV或分析

时间:2015-04-16 15:38:06

标签: xml r

我是一名R数据科学家,习惯于在CSV中平面文件,但我收到的是一个只有数十万个XML文件的大型数据集(12GB)。我想知道如何将这些xml文件拼接成csv或我可以用R分析的东西。

config.txt有一些我不熟悉的术语,我将在下面粘贴,希望它有所帮助

# parameters

THRESHOLD       0.7
REMOVE_STOPWORDS    true
WRITE_MERGED_FILES  true
OUTPUT_STATS        true
SIMILARITY      jaccard
OPERATOR        or
N_GRAMS         3
PAGE_LIMIT      1
BUILD_INDEX             false


# matching features to use

MATCH_TITLE     true
MATCH_AUTHORS       false
MATCH_PAGE_COUNT    false
MATCH_VENUE     false

# paths

# SOLR url
BASE_URL        http://davos2.ist.psu.edu:8983/solr/collection1

# DBLP xml file
DBLP_PATH       input/dblp.xml

# file containing the paths for the CiteSeer xml files
CITESEER_PATH       input/citeseerx-pub.rev.txt

还有一个hits.txt文件,这是一个160MG文件,其中包含这样的行

doi                       hits            time                     

10.1.1.1.1484             12              2.207                    
10.1.1.1.1485             4               0.307   

我确定这是某种标准格式,我似乎无法找到如何将其纳入R.这里是参考文件

http://www.cse.unt.edu/~ccaragea/papers/ecir14.pdf

XML文件是Citeseer文章

上的分层结构数据

感谢您并且乐意提供更多信息

1 个答案:

答案 0 :(得分:0)

我不熟悉R项目,我认识到这种格式。如果您需要自己将XML文件转换为csv格式,则很可能需要为其编写一些脚本或代码,因为XML文件通常是分层的,而csv文件具有扁平结构。要在csv中表示XML结构,您可以执行以下操作:

<tag>A</tag>
    <next>B</next>
        <value>C</value>
    <value>D</value>

到file.csv
    A,B,C
    A,B,d

,如同,重复数据。如果你知道任何脚本或编程语言,我可以提出更多建议。如果你需要一个工具,我会在线搜索。但希望有人能够识别数据格式。