我正在尝试为网站创建一般解析器并获取相关信息。我希望能做的第一件事就是能够知道网站的标识是什么。
通常,徽标将是一个链接回主页面的图像,并且可能在其ID中包含“徽标”一词。
在解析页面时,为了找到页面的徽标,我可以应用哪些好的策略或标准?
答案 0 :(得分:2)
实际上并没有办法让它成为一个通用的过程。没有关于如何显示网站徽标的规则 - 因此没有单一的ID,类,标签或位置可供您查看。同样,图片不会“链接”到任何内容,<a>
链接可能包含<img>
标记,但就此而言。
如果没有编写长长的最佳猜测列表,就无法可靠地解析任意HTML页面并从中获取徽标。