如何访问javascript生成的html信息?

时间:2013-07-29 08:44:24

标签: java javascript ajax parsing

我正试图从NY times获取文章标题。

但我认为html是由javascript生成的,因为它只有在我使用' inspect元素时才能看到。在Firefox上。 我怎样才能看到这些文章?可能,其中一种方法是模拟浏览器,但这看起来有点矫枉过正。 我更喜欢用Java做这个,但Python也没关系。非常感谢您的帮助!

编辑: 我尝试使用api。但是有很多不好的网址(页面未找到)。任何人都有关于如何获取网址和标题的更多想法?

3 个答案:

答案 0 :(得分:0)

Selenium可能就是你要找的东西;它是一个浏览器自动化框架。

您可以使用Python,但Selenium实际上使用Firefox来解析网站的内容(我上次听到)。

您可以获取python版本here,但还有其他options

答案 1 :(得分:0)

您可以尝试使用没有GUI的浏览器,例如HtmlUnit。它具有良好的JavaScript支持,您可以从Java程序中读取页面内容。

答案 2 :(得分:0)

作为此特定问题的替代解决方案,如何使用New York Times API?它们为JavaScript支持提供JSONP。如果他们改变了网站布局,那么使用API​​可能会更具前瞻性。