Question

我正在韩国报纸网站上进行网页报道，但我在处理网址编码方面遇到了麻烦。原始关键字是“실업률”（失业率），首先我尝试使用[URLencode]和[curlEscape]函数（即url_key＆lt; - URLencode（“실업률”））。两者都给了我相同的结果，

“％BD％C7％BE％F7％B7％FC”

但这在报废期间无法正常工作。另一方面，使用URL编码站点（http://meyerweb.com/eric/tools/dencoder/），我得到了

“％乳油％8B％A4％乳油％97％85％EB％A5％A0”

并且运作良好。

但是，我仍然不知道是什么导致了不同的输出以及如何在R中获得后者的输出。感谢您事先做出回应。

（回应评论，我在下面添加了sessionInfo（）的结果）

R version 3.2.4 (2016-03-10)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

locale:
[1] LC_COLLATE=Korean_Korea.949  LC_CTYPE=Korean_Korea.949   
[3] LC_MONETARY=Korean_Korea.949 LC_NUMERIC=C                
[5] LC_TIME=Korean_Korea.949    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods  
[7] base     

other attached packages:
[1] RCurl_1.95-4.8 bitops_1.0-6   plyr_1.8.4     stringr_1.1.0 
[5] XML_3.98-1.4  

loaded via a namespace (and not attached):
[1] magrittr_1.5  tools_3.2.4   Rcpp_0.12.7   stringi_1.1.2

Answer 1

取실（U + C2E4），我们看到它的UTF-8值是0xEC 0x8B 0xA4（3个字节）。这符合预期的URL编码。您的错误结果似乎是由另一个字符集（EUC-KR？）

引起的

R中的URL编码 - 给出不同的结果？

1 个答案: