在没有任何" alt"的情况下为图像抓取并查找关键字属性

时间:2015-08-29 12:30:42

标签: python image web-crawler

我正在编写一个图像抓取工具,用于从网页上抓取图像。这是通过在网页上找到img标签来完成的。但最近我注意到,一些img标签中没有alt属性。有没有办法找到该特定图像的关键字?

是否有针对图片抓取网站的预防措施?

1 个答案:

答案 0 :(得分:0)

如果标签中没有alt属性,或者它是空的,请检查属性名称,如果不是名称,请检查id。好吧,id,例如.asp或.aspx,没有必要有意义。但是,作为最后的手段,通过获取没有扩展名的文件名来使用src属性。有时也可以使用属性类,但是,我不推荐它。甚至身份证也可能非常具有欺骗性。

当然,你会遇到JS强加的图像的问题,但即使这样也可以用很多时间和意志来解决。

至于预防措施,你究竟是什么意思?检查src是真的是图像还是什么?