抓取器解码html实体?

时间:2010-09-01 16:07:16

标签: html seo entities web-crawler

我想知道爬虫和机器人是否可以解码html实体,例如在我的html中我有类似的东西:

salariés
他们这样读过吗?或类似的东西:

salariés

哪个选项更适合SEO?

2 个答案:

答案 0 :(得分:5)

我会说你可以放心地假设HTML实体被正确解码了。它们是有效的HTML,而不解码它们的爬虫最终会有大量破碎的内容。

答案 1 :(得分:1)

大多数抓取工具会解码您的实体,因为他们需要纯文本来计算数据并提取信息。

如果你想帮助他们,请使用适当的编码(如utf8),一个好的charset元,并避免使用html实体。