应用错误收集

时间：2013-07-29 08:44:24

标签： java javascript ajax parsing

我正试图从NY times获取文章标题。

但我认为html是由javascript生成的，因为它只有在我使用＆＃39; inspect元素时才能看到。在Firefox上。我怎样才能看到这些文章？可能，其中一种方法是模拟浏览器，但这看起来有点矫枉过正。我更喜欢用Java做这个，但Python也没关系。非常感谢您的帮助！

编辑：我尝试使用api。但是有很多不好的网址（页面未找到）。任何人都有关于如何获取网址和标题的更多想法？

答案 0 :(得分：0)

Selenium可能就是你要找的东西;它是一个浏览器自动化框架。

您可以使用Python，但Selenium实际上使用Firefox来解析网站的内容（我上次听到）。

您可以获取python版本here，但还有其他options。

答案 1 :(得分：0)

您可以尝试使用没有GUI的浏览器，例如HtmlUnit。它具有良好的JavaScript支持，您可以从Java程序中读取页面内容。

答案 2 :(得分：0)

作为此特定问题的替代解决方案，如何使用New York Times API？它们为JavaScript支持提供JSONP。如果他们改变了网站布局，那么使用API可能会更具前瞻性。