我想从这个文本blob中提取数据。此文本包含制表符分隔的文本和xml标记的文本。我想提取xml blob并分别解析它以供我分析。
Text1 Text2 text3 text4 text4 <Assessment>
<Questions>
<Question>
<Id>1</Id>
<Key>Instructions</Key>
<QuestionText>Your Age</QuestionText>
<QuestionType>Label</QuestionType>
<Answer>16-30</Answer>
</Question>
</Questions>
</Assessment> text5
Text1 Text2 text3 text4 text4 <Assessment>
<Questions>
<Question>
<Id>1</Id>
<Key>Instructions</Key>
<QuestionText>Your Age</QuestionText>
<QuestionType>Label</QuestionType>
<Answer>31-49</Answer>
</Question>
</Questions>
</Assessment> text5
我已使用readlines
阅读了该文字并执行了以下操作。
tst<-gsub("^\\s+","", tst)
idx<-which(grepl("+<Assessment>+", tst))
tst[idx]<-"<Assessment>"
idx<-which(grepl("</Assessment>", tst))
tst[idx]<-"</Assessment>"
仍然没有想出如何使用XML解析它。
答案 0 :(得分:1)