如何阅读未出现在页面源中的网页中的内容

时间:2012-10-16 10:12:10

标签: javascript html css parsing webpage

我想用python

阅读这个网页

http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278#Nr=4294962278&size=100

在网页源代码中只有24个产品网址(http://www.hm.com/us/product.*)

在网页本身(不是来源)中,我看到超过24种产品。

我如何阅读所有产品而不仅仅是前24个?

它可能与网址中的css和参数有关,但我对此并不太了解,如果有人可以提供帮助,我会很感激。

谢谢。

2 个答案:

答案 0 :(得分:0)

其余的都是通过javascript加载的,这就是客户端,这就是为什么当你查看源代码时除了原版24之外什么都没有,如果你禁用javascript然后查看页面,你只会看到前几个。< / p>

除非有适用于Python的JS渲染器,否则你可能会运气不好?

或者调用与javascript相同的页面

答案 1 :(得分:0)

您可以使用的是用于Python的Selenium WebDriver绑定,并让WebDriver访问相关页面,这将使您以编程方式访问页面。这是WebDriver with PythonDocumentation的好消息。