我正试图从NY times获取文章标题。
但我认为html是由javascript生成的,因为它只有在我使用' inspect元素时才能看到。在Firefox上。 我怎样才能看到这些文章?可能,其中一种方法是模拟浏览器,但这看起来有点矫枉过正。 我更喜欢用Java做这个,但Python也没关系。非常感谢您的帮助!
编辑: 我尝试使用api。但是有很多不好的网址(页面未找到)。任何人都有关于如何获取网址和标题的更多想法?
答案 0 :(得分:0)
Selenium可能就是你要找的东西;它是一个浏览器自动化框架。
您可以使用Python,但Selenium实际上使用Firefox来解析网站的内容(我上次听到)。
答案 1 :(得分:0)
您可以尝试使用没有GUI的浏览器,例如HtmlUnit。它具有良好的JavaScript支持,您可以从Java程序中读取页面内容。
答案 2 :(得分:0)
作为此特定问题的替代解决方案,如何使用New York Times API?它们为JavaScript支持提供JSONP。如果他们改变了网站布局,那么使用API可能会更具前瞻性。