在webscraping时隐藏数据

时间:2018-04-10 02:00:57

标签: python python-3.x web-scraping python-requests lxml

更新:正如DyZ在下面评论的那样,我的问题是源代码没有必要的信息。所以,我开始使用Selenium,它起作用了!!!

我正在尝试网络搜索并从网站获取产品的价格。我正在使用lxml和请求模块。到目前为止我所拥有的是:

page = requests.get(myUrl)
tree = html.fromstring(page.content)
prices = tree.xpath('//div[@class="product-pricing"]/text()')

这应该给我一份价格清单,但是当我打印价格时,我得到的是:

['\n\t\t\t\t\t', '\n\t\t\t\t\t', '\n\t\t\t\t', '\n\t\t\t\t\t', '\n\t\t\t\t\t', '\n\t\t\t\t', '\n\t\t\t', '\n\t\t\t', '\n\t\t', '\n\t\t\t\t\t\t', '\n\t\t\t\t\t\t', '\n\t\t\t\t\t']

有谁知道为什么会发生这种情况/如何解决这个问题?

0 个答案:

没有答案