我可以在robots.txt和sitemap.xml中使用非拉丁字符吗?

时间:2015-07-28 17:49:48

标签: sitemap robots.txt domain-name punycode

我可以在robots.txt文件和sitemap.xml中使用非拉丁字符吗?

的robots.txt

User-agent: *
Disallow: /somefolder/

Sitemap: http://www.domainwithåäö.com/sitemap.xml

sitemap.xml的

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.domainwithåäö.com/</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage1</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage2</loc></url>
</urlset>

或者我应该这样做吗?

的robots.txt

User-agent: *
Disallow: /somefolder/

Sitemap: http://www.xn--domainwith-z5al6t.com/sitemap.xml

sitemap.xml的

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.xn--domainwith-z5al6t.com/</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage1</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage2</loc></url>
</urlset>

3 个答案:

答案 0 :(得分:1)

https://support.google.com/webmasters/answer/183668 Google上写道:“请确保您的网址遵循RFC的RFC-3986标准,IRI的RFC-3987标准”,所以我想正确的答案是您必须遵循这两个标准。

我最好的猜测是无关紧要,因为Google认为这两个网址相同。这可能也就是标准中所说的,但我不擅长阅读这些,所以我不能确认也不否认。

使用xn--格式有效。我没有尝试使用Unicode字符来查看它是否也有效。

答案 1 :(得分:0)

由于您的示例包含的字符不在US-ASCII表中,因此您需要对它们进行百分比编码。

Bing的例子:

Your URL:
http://www.domain.com/папка/ 

To Disallow: /папка/

Without Percent encoding (Not Compatible):
Disallow: /папка/

With Percent encoding (Compatile):
Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/

Bing blog post可能会有所帮助。

对于XML站点地图,可以使用非ASCII字符,但必须对其进行编码以匹配服务器的编码可读性。有关示例的更详细说明,请参阅Google的此guide

答案 2 :(得分:0)

它们必须采用ASCII编码,如下所示: