我正在编写一个简单的查询来查找commons.wikimedia.org上的网址,但我似乎无法解决我应该使用哪些特定的清理规则来获取那里使用的确切名称文件。
例如:象牙海岸的旗帜在法语中列为Drapeau_de_la_Côte_d%27Ivoire
,所以我得到的是撇号正在消毒,但常规的ô
却没有。我已经看到很多其他文件名保留了特殊字符。
是否可以安全地假设所有特殊字符都被保留并且所有标点符号和/或非字母都被消毒了?
答案 0 :(得分:2)
Wikipedia使用以%nnnn
格式转义的所有网址(根据所有网址RFC),您的浏览器会为您完成最后的工作,只是为了让网址更友好。
即使我的Chrome显示http://en.wikipedia.org/wiki/Flag_of_Côte_d'Ivoire
个网址,最初也是http://en.wikipedia.org/wiki/Flag_of_C%C3%B4te_d'Ivoire