JS中没有看到HTML中的红色字体(在Firefox中)<img/>标记

时间:2014-10-22 03:21:51

标签: html css firefox jsoup

编辑:自答案。 JSoup确实找到了所有图像标签。

我正试图从https://www.flickr.com/explore抓取一些东西,但我遇到了一个问题。

在源代码中,该网站上的主要图像是用红色字体编写的,我的JSoup select方法(或getElementsByTag方法)找不到它们。如果你们因为格式化问题而自己去网站查看源代码会更容易,但我会尽量在这里考虑最低限度。

编辑:我刚尝试通过chrome和IE查看源代码,图像标签不是红色,所以我假设它是firefox格式。但问题仍然存在,JSoup没有看到那些图像标签。 (在帖子末尾的第二次编辑)

编辑3 :删除了我的粘贴代码,将此打印屏幕放入:http://i.imgur.com/o8fNPnZ.png source code 注意红色块是主要用户上传的图像(我想要的),你可以看到其他不是红色的img标签(但这些只是像微小的标识一样)。当我运行代码时

Elements imageElements = doc.select("img");

然后打印它,我得到所有不是红色的标签。

我对HTML或CSS不是很有经验,有什么特别的东西我不知道吗?或者它是我的代码中的东西?有没有办法检索“红色”字体图像?

编辑2:好的,所以我把它缩小到firefox中的红色HTML字体是某种错误。如果我将鼠标悬停在它上面,则会显示:No space between attributes

现在我有点困惑,因为flickr是一个巨大的网站,它显然仍然有效,因为我看到图像。这可能是他们正在进行的某种“反刮”事吗?我还有办法下载图片吗?

1 个答案:

答案 0 :(得分:0)

回答我自己的问题。

我错了,JSoup确实找到了所有img标签。我不是百分之百确定自从我昨天看到它以及从那时起我的代码已经改变了我的错误,但我认为这是我滥用.select会排除这些图像(我的代码在这个问题中)为了论证而被简化了。)

我会留下这个问题,因为它可能会帮助其他人在源代码中遇到错误的HTML,因为评论中有一些有用的提示