我的文件超过100k,但没有分隔。我需要单独从文件中获取数据。我希望数据如下所示,有些时候标签集不存在。
enter code here
下面是一组的样本数据,同样我有900k套。
98668792TM12016-03-29 0372 —<Inac>
0372 —9866879TM12015-03-29<tag1>data<tag1/>
9866879TM12015-03-29 <tag2>data<tag2/> 9866879TM12015-03-29 <tag3>data<tag3/>
9866879TM12015-03-29 <tag4>data<tag4/> 9866879TM12015-03-29 <tag5>data<tag5/>
9866879TM12015-03-29 <tag6>data<tag6/> 9866879TM12015-03-29 <tag7>data<tag7/>
9866879TM12015-03-29 <tag8>data<tag8/> 9866879TM12015-03-29 <tag9>data<tag9/>
9866879TM12015-03-29 <tag10>data<tag10/> 9866879TM12015-03-29 <tag11>data<tag11/>
9866879TM12015-03-29 <tag12>data<tag12/> 9866879TM12015-03-29 <tag13>data<tag13/>
9866879TM12015-03-29 <tag14>data<tag14/> 9866879TM12015-03-29 <tag15>data<tag15/>
9866879TM12015-03-29 <tag16>data<tag16/> 9866879TM12015-03-29 <tag17>data<tag17/>
9866879TM12015-03-29 <tag18>data<tag18/> 9866879TM12015-03-29 <tag19>data<tag19/>
9866879TM12015-03-29 <tag20>data<tag20/><Inac/><Inac2> 9866879T12015-03-29 <tag1>data<tag1/>
9866879TM12015-03-29 <tag2>data<tag2/> 9866879TM12015-03-29 <tag3>data<tag3/>
9866879TM12015-03-29 <tag4>data<tag4/> 9866879TM12015-03-29 <tag5>data<tag5/>
9866879TM12015-03-29 <tag6>data<tag6/> 9866879TM12015-03-29 <tag7>data<tag7/>
9866879TM12015-03-29 <tag8>data<tag8/> 9866879TM12015-03-29 <tag9>data<tag9/>
9866879TM12015-03-29 <tag10>data<tag10/> 9866879TM12015-03-29 <tag11>data<tag11/>
9866879TM12015-03-29 <tag12>data<tag12/> 9866879TM12015-03-29 <tag13>data<tag13/>
9866879TM12015-03-29 <tag14>data<tag14/> 9866879TM12015-03-29 <tag15>data<tag15/>
9866879TM12015-03-29 <tag16>data<tag16/> 9866879TM12015-03-29 <tag17>data<tag17/>
9866879TM12015-03-29 <tag18>data<tag18/> 9866879TM12015-03-29 <tag19>data<tag19/>
9866879TM12015-03-29 <tag20>data<tag20/><Inac2/><Inac3> 9866879TM12015-03-29 <tag3>data<tag3/>
9866879TM12015-03-29 <tag4>data<tag4/> 9866879TM12015-03-29 <tag5>data<tag5/><Inac3/>