Web抓取工具使用单引号截断URL。糟糕的sitemap.xml可能吗?

时间:2014-10-03 15:15:18

标签: xml sitemap url-encoding

我在我的服务器上收到了很多失败的请求,他们主要来自遇到带有单引号的网址的网页抓取工具。

示例:http://www.example.com/events/2013/5/5/someone's-event

并且抓取工具最终浏览到

http://www.example.com/events/2013/5/5/someone

现在我的sitemap.xml的URL条目包含原始单引号(不是实体转义);然而,所有在线站点地图生成器实际上都生成相同的东西 - 他们不会实体逃脱单引号。此外,我已将我的sitemap.xml提交给在线验证程序,并且每次都会验证。

我注意到的一件事就是这些在线发电机问题:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

而我的sitemap.xml只包含:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">

这可能与它有关吗?

1 个答案:

答案 0 :(得分:1)

单引号需要在XML文档中进行编码。很不幸的是,有很多机器人爬虫(包括一些主要的)不使用URL的解码版本。