我是一名R数据科学家,习惯于在CSV中平面文件,但我收到的是一个只有数十万个XML文件的大型数据集(12GB)。我想知道如何将这些xml文件拼接成csv或我可以用R分析的东西。
config.txt有一些我不熟悉的术语,我将在下面粘贴,希望它有所帮助
# parameters
THRESHOLD 0.7
REMOVE_STOPWORDS true
WRITE_MERGED_FILES true
OUTPUT_STATS true
SIMILARITY jaccard
OPERATOR or
N_GRAMS 3
PAGE_LIMIT 1
BUILD_INDEX false
# matching features to use
MATCH_TITLE true
MATCH_AUTHORS false
MATCH_PAGE_COUNT false
MATCH_VENUE false
# paths
# SOLR url
BASE_URL http://davos2.ist.psu.edu:8983/solr/collection1
# DBLP xml file
DBLP_PATH input/dblp.xml
# file containing the paths for the CiteSeer xml files
CITESEER_PATH input/citeseerx-pub.rev.txt
还有一个hits.txt
文件,这是一个160MG文件,其中包含这样的行
doi hits time
10.1.1.1.1484 12 2.207
10.1.1.1.1485 4 0.307
我确定这是某种标准格式,我似乎无法找到如何将其纳入R.这里是参考文件
http://www.cse.unt.edu/~ccaragea/papers/ecir14.pdf
XML文件是Citeseer文章
上的分层结构数据感谢您并且乐意提供更多信息
答案 0 :(得分:0)
我不熟悉R项目,我认识到这种格式。如果您需要自己将XML文件转换为csv格式,则很可能需要为其编写一些脚本或代码,因为XML文件通常是分层的,而csv文件具有扁平结构。要在csv中表示XML结构,您可以执行以下操作:
<tag>A</tag>
<next>B</next>
<value>C</value>
<value>D</value>
到file.csv
A,B,C
A,B,d
,如同,重复数据。如果你知道任何脚本或编程语言,我可以提出更多建议。如果你需要一个工具,我会在线搜索。但希望有人能够识别数据格式。