我可以在robots.txt文件和sitemap.xml中使用非拉丁字符吗?
的robots.txt
User-agent: *
Disallow: /somefolder/
Sitemap: http://www.domainwithåäö.com/sitemap.xml
sitemap.xml的
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.domainwithåäö.com/</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage1</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage2</loc></url>
</urlset>
或者我应该这样做吗?
的robots.txt
User-agent: *
Disallow: /somefolder/
Sitemap: http://www.xn--domainwith-z5al6t.com/sitemap.xml
sitemap.xml的
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.xn--domainwith-z5al6t.com/</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage1</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage2</loc></url>
</urlset>
答案 0 :(得分:1)
在https://support.google.com/webmasters/answer/183668 Google上写道:“请确保您的网址遵循RFC的RFC-3986标准,IRI的RFC-3987标准”,所以我想正确的答案是您必须遵循这两个标准。
我最好的猜测是无关紧要,因为Google认为这两个网址相同。这可能也就是标准中所说的,但我不擅长阅读这些,所以我不能确认也不否认。
使用xn--
格式有效。我没有尝试使用Unicode字符来查看它是否也有效。
答案 1 :(得分:0)
由于您的示例包含的字符不在US-ASCII表中,因此您需要对它们进行百分比编码。
Bing的例子:
Your URL:
http://www.domain.com/папка/
To Disallow: /папка/
Without Percent encoding (Not Compatible):
Disallow: /папка/
With Percent encoding (Compatile):
Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/
这Bing blog post可能会有所帮助。
对于XML站点地图,可以使用非ASCII字符,但必须对其进行编码以匹配服务器的编码可读性。有关示例的更详细说明,请参阅Google的此guide。
答案 2 :(得分:0)
它们必须采用ASCII编码,如下所示: