我在我的服务器上收到了很多失败的请求,他们主要来自遇到带有单引号的网址的网页抓取工具。
示例:http://www.example.com/events/2013/5/5/someone's-event
并且抓取工具最终浏览到
http://www.example.com/events/2013/5/5/someone
现在我的sitemap.xml的URL条目包含原始单引号(不是实体转义);然而,所有在线站点地图生成器实际上都生成相同的东西 - 他们不会实体逃脱单引号。此外,我已将我的sitemap.xml提交给在线验证程序,并且每次都会验证。
我注意到的一件事就是这些在线发电机问题:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
而我的sitemap.xml只包含:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
这可能与它有关吗?
答案 0 :(得分:1)
单引号需要在XML文档中进行编码。很不幸的是,有很多机器人爬虫(包括一些主要的)不使用URL的解码版本。