使用Python刮擦Aliexpress网站不会给我正确的结果

时间:2017-08-02 11:54:33

标签: python-2.7 web-scraping

我在刮削速卖通现场时遇到了问题。

https://www.aliexpress.com/item/Free-gift-100-Factory-Original-Unlocked-Apple-iphone-4G-8GB-16GB-32GB-Cell-phone-3-5/32691056589.html

这是一个网址。

我想得到什么。

enter image description here

r = requests.get('https://www.aliexpress.com/item/Free-gift-100-Factory-Original-Unlocked-Apple-iphone-4G-8GB-16GB-32GB-Cell-phone-3-5/32691056589.html')

beautifulsoup

content = soup.find('div', {'id':'j-product-tabbed-pane'})

lxml解析。

root = html.fromstring(r.content)
results = root.xpath('//img[@alt="aeProduct.getSubject()"]')
f =  open('result.html', 'w')
f.write(lxml.html.tostring(results[0]))
f.close()

这是我的代码但给我错误的结果。 检查浏览器有那些元素 但上面的代码不给我任何东西。

我认为requests.get不给我正确的内容。但为什么以及如何解决这个问题。他们检测为机器人?怎么能帮到我 谢谢大家。

1 个答案:

答案 0 :(得分:0)

试试这个 1 次使用用户代理 2 次使用代理 3-禁用此站点的 javascript 并刷新它,然后查看该站点是否有此元素,或者如果它是通过 javascript 加载的,则由 javascript 加载 你应该找到一种渲染JS的方法