从Perl中的链接检索媒体(图像,视频等)

时间:2011-11-12 21:31:30

标签: python perl media web-scraping reddit

与Reddit的r / pic sub-reddit类似,我想从各种来源汇总媒体。一些站点使用OEmbed规范来公开页面上的媒体,但并非所有站点都这样做。我正在浏览Reddit的来源,因为他们基本上是“刮”用户提交的链接,检索图像,视频等。他们创建缩略图,然后沿着他们网站上的链接显示。现在,我想做类似的事情,我看了他们的代码[1],似乎他们为每个域识别他们识别的自定义刮刀,然后他们有一个通用的Scraper类,使用简单的逻辑从任何域获取图像(基本上他们检索网页,解析html,然后确定页面上最大的图像,然后用它们生成缩略图)。

由于它是开源的,我可以重用我的应用程序的代码,但不幸的是我选择了Perl,因为这是一个爱好项目,我正在尝试学习Perl。是否有一个具有类似功能的Perl模块?如果没有,是否有一个类似于Python Imaging Library的Perl模块?在没有实际下载整个图像的情况下确定图像大小是很方便的。缩略图生成。

谢谢!

[1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

2 个答案:

答案 0 :(得分:1)

Image::Size是用于确定各种格式的图像大小的专用模块。从资源中读取前1000个八位字节应该足够了,足以用于各种图像标题into a buffer and operating on that。我没有测试过这个。

我不知道任何具有HTTP范围请求API的通用抓取模块,以避免下载整个图像资源,但很容易将WWW::Mechanize子类化。

答案 1 :(得分:0)

尝试PerlMagick,其中也列出了安装说明。