使用R读取保存在文本文件中的xml数据

时间:2017-09-20 11:53:12

标签: r xml

我将数据保存在包含XML的.txt文件中。它有大约35k行,第一行作为标题,我想将这些数据提取到数据帧。

我使用readLines将数据读入R.数据的摘录如下所示:

[1] "H|TASK_ID|TASK_REFERENCE|TASK_NAME|TASK_TYPE|TASK_RAISED_TS|TASK_STATE|TASK_VIEWED_FLAG|TASK_OUTCOME|CURRENT_QUEUE|QUEUE_CHANGE_TS|TASK_XML_DATA|SCORE_XML_DATA|CREATED_TS|CREATED_BY|LAST_UPDATED_TS|LAST_UPDATED_BY|VERSION_NO|TASK_ADOPTED_FLAG"

[2] "B|\"12\"|\"137####_2A62###\"|\"137####_2A62###\"|\"Claim\"|\"14APR2015:23:36:04\"|\"AwaitingTriageEast\"|\"N\"|\" \"|\"4\"|\".\"|\"<?xml version=\"1.0\" encoding=\"UTF-8\"?><tasks xmlns=\"xyz.com/network/workbench/task\"><task><taskxml><Claim prDocumentIdentifier=\"137####_2A62###\"><ID>519_1</ID><ClaimNumber>137####_2A62###</ClaimNumber><SearchClaimNumber>2A62###</SearchClaimNumber><PolicyNumber>28352##_SP23A2####</PolicyNumber><SearchPolicyNumber>SP23A2####</SearchPolicyNumber><AmendmentNumber>5007####</AmendmentNumber><AmendmentDatetime>2016-10-31T14:44:02</AmendmentDatetime><FreeTextDescription>INS PASSENGER IN UNINSURED AUTOMOBILE THAT VEERED OFF THE RD INTO A DITCH</FreeTextDescription><ClaimCauses><ClaimCause><ActualValue>THIRD PARTY STRUCK INSURED'S PARKED VEHICLE</ActualValue><Category>MOTOR_ACCIDENT_TP_HIT_FP</Category></ClaimCause></ClaimCauses><IncidentDate>2006-10-13</IncidentDate><IncidentTime>14:30:00.000</IncidentTime><IncidentDateTime>2006-10-13T14:30:... <truncated>

如何从这里开始制作数据框?我是XML相关软件包的新手。所以任何帮助都非常感谢。

1 个答案:

答案 0 :(得分:0)

如果您的数据位于文件“df.txt”中。然后只需用sep =“|”读取表格像:

df = read.table("df.txt", sep="|")