Question

我是一名R数据科学家，习惯于在CSV中平面文件，但我收到的是一个只有数十万个XML文件的大型数据集（12GB）。我想知道如何将这些xml文件拼接成csv或我可以用R分析的东西。

config.txt有一些我不熟悉的术语，我将在下面粘贴，希望它有所帮助

# parameters

THRESHOLD       0.7
REMOVE_STOPWORDS    true
WRITE_MERGED_FILES  true
OUTPUT_STATS        true
SIMILARITY      jaccard
OPERATOR        or
N_GRAMS         3
PAGE_LIMIT      1
BUILD_INDEX             false


# matching features to use

MATCH_TITLE     true
MATCH_AUTHORS       false
MATCH_PAGE_COUNT    false
MATCH_VENUE     false

# paths

# SOLR url
BASE_URL        http://davos2.ist.psu.edu:8983/solr/collection1

# DBLP xml file
DBLP_PATH       input/dblp.xml

# file containing the paths for the CiteSeer xml files
CITESEER_PATH       input/citeseerx-pub.rev.txt

还有一个hits.txt文件，这是一个160MG文件，其中包含这样的行

doi                       hits            time                     

10.1.1.1.1484             12              2.207                    
10.1.1.1.1485             4               0.307

我确定这是某种标准格式，我似乎无法找到如何将其纳入R.这里是参考文件

http://www.cse.unt.edu/~ccaragea/papers/ecir14.pdf

XML文件是Citeseer文章

上的分层结构数据

感谢您并且乐意提供更多信息

Answer 1

我不熟悉R项目，我认识到这种格式。如果您需要自己将XML文件转换为csv格式，则很可能需要为其编写一些脚本或代码，因为XML文件通常是分层的，而csv文件具有扁平结构。要在csv中表示XML结构，您可以执行以下操作：

<tag>A</tag>
    <next>B</next>
        <value>C</value>
    <value>D</value>

到file.csv
A，B，C
A，B，d

，如同，重复数据。如果你知道任何脚本或编程语言，我可以提出更多建议。如果你需要一个工具，我会在线搜索。但希望有人能够识别数据格式。

在R中将数千个XML文件转换为CSV或分析

1 个答案: