抓取javascript

时间:2018-03-01 02:12:42

标签: python web-scraping scrapy web-crawler screen-scraping

我在将JavaScript内容转换为HTML以将其用于脚本时遇到问题。我使用了多种方法作为phantomjs或python QT库,它们都很好地获得了大部分内容,但问题是页面内部有javascript按钮,如下所示:

Pls see screenshot here

现在,当我从脚本加载此页面时,这些按钮不会默认为任何值,因此下面的所有SELL / NEUTRAL / BUY值都会返回0。从脚本加载页面时有没有办法设置这些值?

包含所有值的示例页面为:https://www.tradingview.com/symbols/NEBLBTC/technicals/

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:0)

如果您尝试使用scrapy或推导cURLurrlib来实现此目标,我担心您无法做到这一点。 Python有另外一个外部包,如selenium,允许你与页面的javascript交互,但selenium的问题太慢,如果你想要类似于scrapy的东西,你可以检查网站的工作原理(因为我可以看到它的工作原理) ajax或websockets)并通过urllib获取您想要的信息,就像使用API​​一样。

如果您理解我或我误解了您的问题,请告诉我

答案 1 :(得分:0)

我使用的seleneum非常适合这项工作,它确实很慢但符合我的目的。我还使用seleneum firefox插件来生成python脚本,因为找到代码中的确切位置与我必须按下的按钮非常具有挑战性。