标签: jsoup
任何人都可以提供指针或建议,以解决如何解析非常大的HTML流/文件。例如,我有一个大约270,000行的表,我想一次将它带入我的应用程序约20k。 jsoup解析方法允许HTML的片段,但我不清楚什么是读取表示此片段的XXX字节的最有效和最干净的方法。
最值得赞赏的任何帮助。
答案 0 :(得分:0)
如果它是XHTML,并且您不需要立即将整个事物保留在内存中,那么更好的选择可能是使用SAX解析器并使用开始和结束标记事件来选择所需的数据。
另一个想法可能是StAX解析器。