Question

它是关于Bangla Unicode文本的，但对于拉丁字形以外的任何语言都可能存在问题我是Bangla ^{中所有文本和类别的Bangla blog的主持人（我不想说孟加拉语，因为该语言的名称是 Bangla < / em>而不是孟加拉语）}。

所以孟加拉语“বাংলা”中的类别说的URL如下：
http://www.example.com/category/বাংলা

但每当我从地址栏复制URL并将其放入聊天面板或其他地方时，它就会改变一些奇怪的字符，例如：
http://www.example.com/category/%E0%A6%B8%E0%A7%8D%E0%A6%A8%E0 ^*

_{*这只是一个例子，而不是“বাংলা”这个词的确切喋喋不休）}

所以，在很多情况下，我得到了一些像上面那样的编码网址，从那里我找不到他们所说的Unicode文本的痕迹。最近我的一个插件记录了一些404错误。从那里我找到了一个像：
的URI
/category/%E0%A6%B8%E0%A7%8D%E0%A6%A8%E0%A6%BE%E0%A7%9F%E0%A7%81%E0%A6%AC%E0%A6%BF%E0%A6%A6%E0%A7%8D%E0%A6%AF%E0

我使用Jetpack的Omnisearch找出任何匹配，但结果是空的。我甚至无法追踪创建这样一个404的类别。

所以问题出现了：

如何将编码后的网址转换为可读的字形？

Answer 1

http://www.example.com/category/বাংলা

不是网址; URL只能包含ASCII字符。这是IRI。

http://www.example.com/category/%E0%A6%AC%E0%A6%BE%E0%A6%82%E0%A6%B2%E0%A6%BE

是该IRI的URI表示。它们在其他方面相同。浏览器可以在用户界面中显示“漂亮”的IRI版本，但是将URI版本放在剪贴板上，以便您可以将其粘贴到不支持IRI的其他工具中。

您粘贴的404地址转换为：

/category/স্নায়ুবিদ্য�

其中最后一个字符是，因为它是一个无效的截断的UTF-8序列。（这可能是请求失败的原因。）有人可能在这里错误地粘贴了部分URI。

如何将编码的URL转换为可读文本？

1 个答案: