我有一个来自wiktionary的巨大xml文件,我需要解析一个类项目。我只需要从一组200行中提取数据,这些行从395,000行开始。我怎么会只扫描少量的线?行号是否有某种内置属性?
答案 0 :(得分:1)
如果您的数据中的行边界很重要,那么它就不是真正的XML。接受它是什么,一个面向行的文件,并开始使用面向行的文本工具处理它。使用这些来提取XML(如果可以的话),然后将此XML传递给XML解析器。
答案 1 :(得分:0)
行号没有内置属性。
如果要以编程方式查看第395,000行到395,200行的所有数据,可以通过计算换行符来实现。
文件中的每一行以新行(“\ n”)结尾,因此您可以计算其中的349,999行,然后查看数据,直到您再看到200行。