我在找什么,应该给我这样的东西 - >
答案 0 :(得分:1)
有许多可用的API可以完成您的任务(更准确地说,您在问题上描述的任务,而不是图像:))。我个人使用diffbot,这是我在阅读this后发现的。但请注意,由于网页的性质,这种“内容”提取并不总是以成功结束。相反,它依赖于启发式和培训,因此可能不足以满足您的特定目的......
答案 1 :(得分:0)
如果您想要整个页面的屏幕截图,那么https://stackoverflow.com/questions/1041371/alexa-api之类的内容可能会对您有所帮助吗?
否则,如果您只想从页面获取一些关键图像..
你可以使用机械化来帮助你。当您连接到网页时,您可以使用以下方式搜索页面上的所有链接:
for link in br.links():
其中br是您的浏览器对象。
你可以在这里看到一个例子: Download all the links(related documents) on a webpage using Python
如果你打印dir(链接),它会显示各种属性,如link.text和link.url。此外,您可以导入urlparse.urlsplit并在URL上使用它。您可以将浏览器指向URL并抓取图像,如上例所示。
答案 2 :(得分:0)
你应该真正使用搜索引擎解释页面及其中的图像。
您可以使用python wrapper on the bing API或xGoogle library。
请注意xGoogle图库伪造成谷歌,就像浏览器一样,可能不会认可使用谷歌数据的方式。
答案 3 :(得分:-1)
这个应该有所帮助:http://palewi.re/posts/2008/04/20/python-recipe-grab-a-page-scrape-a-table-download-a-file/
了解如何抓取内容和图像并进行存储。