通过python从HTML中提取特定信息

时间:2013-11-10 05:22:18

标签: python html amazon extract

我正在尝试从亚马逊提取价格和供应商等信息。

我现在这样做的方法是找到价格等关键词,然后找到我想要的信息。

问题是如果像亚马逊这样的网站稍微更改了它们的框架,代码可能就不再有用了。

我想知道是否有更好的方法/算法做类似的事情。

谢谢!

1 个答案:

答案 0 :(得分:1)

您想要访问网站上的数据。您的建议是手工制作的API或应用程序编程接口。

手工制作API的一个主要缺陷正是您提到的,或者网页供应商可能会做出一些小改动,导致您的API无法使用。

通常,最好使用可直接访问属于网站所有者的数据的API。这些API由网站所有者自己创建,因此他们可以直接访问数据,并且可以解决您在使用HTML抓取时所需的数据之间的所有混乱格式。


具体而言,亚马逊的价格API位于here

重要:

如上所述here,请阅读许可协议的第4b部分:

(b)您将仅以合法方式使用产品广告内容(i); (ii)根据本许可协议的条款并在第6节授予的许可的明确范围内; (iii)向亚马逊网站发送最终用户并推动销售。 您不会将产品广告API,数据Feed或产品广告内容与任何网站或应用程序或任何其他方式一起使用,其主要目的不是宣传和营销亚马逊网站并推动在亚马逊网站上销售产品和服务。