是否有一个python模块,网页刮擦图像,标题和任何链接的描述?

时间:2011-07-05 09:36:42

标签: python django beautifulsoup web-scraping

我在找什么,应该给我这样的东西 - > enter image description here

4 个答案:

答案 0 :(得分:1)

有许多可用的API可以完成您的任务(更准确地说,您在问题上描述的任务,而不是图像:))。我个人使用diffbot,这是我在阅读this后发现的。但请注意,由于网页的性质,这种“内容”提取并不总是以成功结束。相反,它依赖于启发式和培训,因此可能不足以满足您的特定目的......

答案 1 :(得分:0)

如果您想要整个页面的屏幕截图,那么https://stackoverflow.com/questions/1041371/alexa-api之类的内容可能会对您有所帮助吗?

否则,如果您只想从页面获取一些关键图像..

你可以使用机械化来帮助你。当您连接到网页时,您可以使用以下方式搜索页面上的所有链接:

for link in br.links():

其中br是您的浏览器对象。

你可以在这里看到一个例子: Download all the links(related documents) on a webpage using Python

如果你打印dir(链接),它会显示各种属性,如link.text和link.url。此外,您可以导入urlparse.urlsplit并在URL上使用它。您可以将浏览器指向URL并抓取图像,如上例所示。

答案 2 :(得分:0)

你应该真正使用搜索引擎解释页面及其中的图像。

您可以使用python wrapper on the bing APIxGoogle library

请注意xGoogle图库伪造成谷歌,就像浏览器一样,可能不会认可使用谷歌数据的方式。

答案 3 :(得分:-1)

这个应该有所帮助:http://palewi.re/posts/2008/04/20/python-recipe-grab-a-page-scrape-a-table-download-a-file/

了解如何抓取内容和图像并进行存储。