我有一个包含一些文本数据的大型标记文档(> 10Gb)。
<ID>some TXT I</ID>
<NAME>name 1</NAME>
<TYPE>type1</TYPE>
<DESCRIPTION>loooots of data,
html and
stuff
....
</DESCRIPTION>
<ID>some TXT II</ID>
<NAME>name 2</NAME>
<TYPE>type2</TYPE>
<DESCRIPTION>loooots of data,
html and
stuff
....
</DESCRIPTION>
<ID>some TXT 3</ID>
<NAME>name 3</NAME>
<TYPE>type3</TYPE>
<DESCRIPTION>loooots of data,
html and
other
stuff
....
</DESCRIPTION>
val arrayOfPages: ParSeq[Page] = file.mkString.split("\\n<URL>")
.toStream.par.map(_.trim).filter(!_.isEmpty)
.map(e => "<URL>" + e).map{parsePage}
任何其他想法如何咬它? 我需要有一个迭代器或这些对象的流,我可以懒得处理它们。