我可以在GAE上使用任何好的解决方案或无头浏览器吗?我在GAE上开发一个应用程序,在那里应用程序将读取一些网页,解析它们并对它们进行一些统计。正在进行讨论here,以使HTMLUnit在GAE上工作,但我不确定它是否会起作用。
答案 0 :(得分:1)
如果您只是获取HTML(而不是执行Javascript),jsoup.org可能值得一看:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
(示例代码从jsoup无耻地复制)