应用错误收集

如何从该网站上抓取图片网址

时间：2020-01-10 02:51:36

标签： python python-3.x web-scraping beautifulsoup

我想用Beautiful Soup刮掉该网站上的所有缩略图。我看到了源代码，但找不到缩略图的URL

https://ec.europa.eu/taxation_customs/dds2/ebti/ebti_consultation.jsp?Lang=en&Lang=en&refcountry=&reference=&valstartdate=&valstartdateto=&valenddate=&valenddateto=&suppldate=&nomenc=3824&nomencto=&keywordsearch1=&keywordsearch=&specialkeyword=&keywordmatchrule=OR&descript=&orderby=4&Expand=true&offset=1&viewVal=Thumbnail&isVisitedRef=false&allRecords=0&showProgressBar=true

如何找到缩略图的URL？

3 个答案:

答案 0 :(得分：1)

显然，此站点的URL遵循此模式https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18403-19-1_thumbnail106.jpeg

因此，项目名称位于文件名 DEBTI18403-19-1 中，并且缩略图的增量名称为 _thumbnail106.jpeg

也许这可以帮助您

答案 1 :(得分：0)

浏览器扩展程序可以快速简便地批量下载图像

答案 2 :(得分：0)

此页面使用JavaScript添加缩略图，但是requests / Beautifulsoup无法运行JavaScript. You may need Selenium to control web browser which can run JavaScript`。

或者您可以在DevTools的{{1}}中检入Chrome/Firefox使用什么网址来加载此数据并将其与JavaScript一起使用

我找到了此网址，但它需要cookie，因此首先我加载原始页面来获取cookie，然后再加载带有缩略图的页面

requests

顺便说一句：：在原始页面的HTML代码中，您可以找到带有元素的JavaScript行，以建立指向缩略图页面的链接，但是这需要对字符串进行额外的处理。