我正在抓紧抓取我的第一个爬虫,并尝试获取没有alt =“”属性的所有图像。
所以我的搜寻器找到了所有没有alt的图像,但是给了我不了解的json项。这是一个示例json输出:
[
"[\"\"]",
"[\"https://tobier.de/media/2018/06/logo2-1.png\"]",
"[\"\"]",
"[\"https://tobier.de/media/2018/07/12548893_1089313591090351_8553746080250989501_n.jpg\"]",
"[\"\"]",
"[\"https://tobier.de/media/2018/07/16729432_1368587256496315_1586875734109631011_n.jpg\"]"
]
我的问题:
"" data-lazy-src="https://tobier.de/media/2018/07/wordpress-custom-post-type-1.png" alt="wordpress custom post type" itemprop="contentUrl"/>
那是您在json中获得的第一个。
可能是一些Wordpress特定的图像。
答案 1 :(得分:-1)
代码看起来像它的本意。
陌生的src标记是一种技巧,here
我转到了网页链接,并在base 64中找到了至少一张包含数据的img
<span class="ez-toc-section" id="Permalinks_aktualisieren">Permalinks aktualisieren</span></h3><p>Erstellen wir im Backend nun einen Mitarbeiter, sehen wir unter dem Title den Permalink. Wie konfiguriert, wird zwischen der Domain und dem Mitarbeiter-Name nun der Slug „mitarbeiter“ ausgegeben.</p><figure class="figure" itemscope itemtype="http://schema.org/ImageObject"> <img class="figure-img img-fluid rounded" src="" data-lazy-src="https://tobier.de/media/2018/07/permalink.png" alt="post type permalink" itemprop="contentUrl"/>