使用python从不同的电子商务网站中提取价格

时间:2013-07-08 11:49:00

标签: python python-2.7 e-commerce web-scraping

当用户在界面中输入书名并显示所有信息时,我需要开发用于从亚马逊,家庭商店等不同电子商务网站中提取书籍价格的网络应用程序。

我的问题是 1)如何将该查询传递给亚马逊网站搜索框,我只能获得与查询相关的网页,而不是抓取整个网站。

2)可以用什么来开发这个应用程序?BeautifulSoup还是垃圾?API并不适用于所有电子商务网站使用它

我是python的新手。所以任何帮助都将受到高度赞赏

1 个答案:

答案 0 :(得分:1)

我个人使用BeautifulSoup来解析网页,但要注意,如果你必须大量解析页面,它会有点慢。我知道lxml速度更快但编码更少。为了获得你想要的结果页面而猜测正确的参数(无论是HTTP GET还是POST),你应该这样做:

  1. 启用Firefox的firebug插件或Chrome的集成检查器
  2. 转到您感兴趣的网页,然后进行搜索
  3. 进入firebug / inspector,查看发送到网站的HTTP请求的参数。
  4. 在python脚本中重现请求。例如,使用urllib
  5. 还有另一种猜测正确的HTTP GET或POST参数的方法,就是使用像Wireshark这样的网络分析器。这是一个更详细的方法,但感觉更像 在Firefox / Chrome中使用这些工具后,在大海捞针中找到针。