刮擦网页的“预览” - Python

时间:2010-02-27 18:09:01

标签: python html django screen-scraping

我正在为链接列表编制索引,这些链接会经常更新,因此我会自动缩放网站的缩略图。

对于大多数网站而言,这很容易,因为我只是抓住页面上最大的图像,希望它描述内容。

但有时候会有视频作为网页的主要内容。


有人有处理此问题的提示吗?那太好了!


关于使用Webkit创建屏幕截图I found this

2 个答案:

答案 0 :(得分:3)

wkhtmltopdf使用WebKit渲染引擎的嵌入式副本(在Safari,Chrome等中使用)将网页保存为PDF,包括所有图像(虽然我猜没有Flash视频)。这可能是更准确的缩略图的起点。

答案 1 :(得分:3)

存在(免费和付费)服务,可以完全满足您的需求。我使用shrink the web