我想从网站上获取少量数据/值。我已经使用了beautifulsoup
,当我尝试从我的Python脚本中获取它们时,这些字段是空白的,而当我检查网页的元素时,我可以清楚地看到表行数据中的值可用。
当我看到HTML Source时,我也注意到它的空白。
我想出了一个原因,该网站使用Javascript
从其自己的数据库填充相应字段中的值。如果是这样,我怎样才能使用Python获取它们?
答案 0 :(得分:1)
Selenium和phantomjs的Python绑定(如果你想使用无头浏览器作为后端)是适合这项工作的工具。
答案 1 :(得分:0)
是的,你可以抓取JS数据,只需要更多的黑客攻击。浏览器可以做任何事情,python可以做。
如果您使用的是firebug,请查看network
标签,了解您的数据来自哪个特定请求。在chrome元素检查中,您也可以在名为network
的选项卡中找到此信息。只需点击ctrl-F即可搜索请求的响应内容。
如果找到了正确的请求,数据可能嵌入在JS代码中,在这种情况下,您将要进行一些正则表达式解析。如果你很幸运,格式是xml或json,在这种情况下你可以使用相关的内置解析器。