应用错误收集

我最近遇到了一个特定于Firefox编码直接输入地址栏的网址的编码问题。它基本上看起来像URL的默认Firefox字符编码不是UTF-8，大多数浏览器就是这种情况。此外，看起来他们正试图根据URL的内容做出一些关于使用什么字符编码的明智决定。

例如，如果您使用'q'参数直接在地址栏中输入URL（我使用的是Firefox 3.5.5），您将获得以下结果：

对于给定的查询字符串参数，这是它在http请求中实际编码的方式：
1）... q =Književni - ＆gt; q = Knji％9Eevni（这似乎是iso-8859-1编码）
2）... q =汉字 - ＆gt; q =％E6％BC％A2％E5％AD％97（这似乎是UTF-8编码）
3）... q =Književni汉字 - ＆gt; Knji％C5％BEevni％E6％BC％A2％E5％AD％97（这似乎是UTF-8编码...这是奇怪的，因为注意到值的第一部分与1相同，这是iso-8859-1编码）。

所以，这真的不应该是一件大事，对吧？嗯，对我来说，不完全，但有点。在我正在处理的应用程序中，我们的全局导航中有一个搜索框。当用户在我们的搜索框中提交搜索词时，'q'参数（如我们的示例中，包含查询字符串值的参数）将在请求中提交并且是UTF-8编码的，并且一切都很好。

但是，地址栏中显示的URL包含该URL的解码形式，因此q参数看起来像“q =Književni”。现在，正如我之前提到的，如果用户然后按下ENTER键提交地址栏中的内容，则“q =Književni”参数现在被编码为iso-8859-1并被发送到我们的服务器“q = Knji％9Eevni”。这个问题是我们总是期待一个UTF-8编码的URL ...所以当我们收到这个参数时，我们的应用程序不知道如何解释它，它可能会导致一些奇怪的结果。

正如我之前提到的，这似乎只是一个Firefox问题，用户实际上很少遇到这种情况，所以对我们来说并不太关心。但是，我碰巧注意到Google实际上处理得非常好。使用查询字符串参数的不同编码形式键入以下URL将在Google中返回不错的结果：

http://www.google.com/search?q=Knji%C5%BEevni
http://www.google.com/search?q=Knji%9Eevni

所以我的问题是，您认为他们如何处理这种情况？此外，还有其他人看到同样奇怪的Firefox行为吗？

您认为Google如何处理此编码问题？

2 个答案: