它是关于Bangla Unicode文本的,但对于拉丁字形以外的任何语言都可能存在问题 我是Bangla 中所有文本和类别的Bangla blog的主持人(我不想说孟加拉语,因为该语言的名称是 Bangla < / em>而不是孟加拉语)。
所以孟加拉语“বাংলা”中的类别说的URL如下:
http://www.example.com/category/বাংলা
但每当我从地址栏复制URL并将其放入聊天面板或其他地方时,它就会改变一些奇怪的字符,例如:
http://www.example.com/category/%E0%A6%B8%E0%A7%8D%E0%A6%A8%E0
*
*这只是一个例子,而不是“বাংলা”这个词的确切喋喋不休)
所以,在很多情况下,我得到了一些像上面那样的编码网址,从那里我找不到他们所说的Unicode文本的痕迹。最近我的一个插件记录了一些404错误。从那里我找到了一个像:
的URI/category/%E0%A6%B8%E0%A7%8D%E0%A6%A8%E0%A6%BE%E0%A7%9F%E0%A7%81%E0%A6%AC%E0%A6%BF%E0%A6%A6%E0%A7%8D%E0%A6%AF%E0
我使用Jetpack的Omnisearch找出任何匹配,但结果是空的。我甚至无法追踪创建这样一个404的类别。
所以问题出现了:
答案 0 :(得分:2)
http://www.example.com/category/বাংলা
不是网址; URL只能包含ASCII字符。这是IRI。
http://www.example.com/category/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE
是该IRI的URI表示。它们在其他方面相同。浏览器可以在用户界面中显示“漂亮”的IRI版本,但是将URI版本放在剪贴板上,以便您可以将其粘贴到不支持IRI的其他工具中。
您粘贴的404地址转换为:
/category/স্নায়ুবিদ্য�
其中最后一个字符是 ,因为它是一个无效的截断的UTF-8序列。 (这可能是请求失败的原因。)有人可能在这里错误地粘贴了部分URI。