解析时如何获取页面的徽标?

时间:2013-10-07 22:14:18

标签: html parsing

我正在尝试为网站创建一般解析器并获取相关信息。我希望能做的第一件事就是能够知道网站的标识是什么。

通常,徽标将是一个链接回主页面的图像,并且可能在其ID中包含“徽标”一词。

在解析页面时,为了找到页面的徽标,我可以应用哪些好的策略或标准?

1 个答案:

答案 0 :(得分:2)

实际上并没有办法让它成为一个通用的过程。没有关于如何显示网站徽标的规则 - 因此没有单一的ID,类,标签或位置可供您查看。同样,图片不会“链接”到任何内容,<a>链接可能包含<img>标记,但就此而言。

如果没有编写长的最佳猜测列表,就无法可靠地解析任意HTML页面并从中获取徽标。