我正在韩国报纸网站上进行网页报道,但我在处理网址编码方面遇到了麻烦。原始关键字是“실업률”(失业率),首先我尝试使用[URLencode]和[curlEscape]函数(即url_key< - URLencode(“실업률”))。两者都给了我相同的结果,
“%BD%C7%BE%F7%B7%FC”
但这在报废期间无法正常工作。另一方面,使用URL编码站点(http://meyerweb.com/eric/tools/dencoder/),我得到了
“%乳油%8B%A4%乳油%97%85%EB%A5%A0”
并且运作良好。
但是,我仍然不知道是什么导致了不同的输出以及如何在R中获得后者的输出。感谢您事先做出回应。
(回应评论,我在下面添加了sessionInfo()的结果)
R version 3.2.4 (2016-03-10)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
locale:
[1] LC_COLLATE=Korean_Korea.949 LC_CTYPE=Korean_Korea.949
[3] LC_MONETARY=Korean_Korea.949 LC_NUMERIC=C
[5] LC_TIME=Korean_Korea.949
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] RCurl_1.95-4.8 bitops_1.0-6 plyr_1.8.4 stringr_1.1.0
[5] XML_3.98-1.4
loaded via a namespace (and not attached):
[1] magrittr_1.5 tools_3.2.4 Rcpp_0.12.7 stringi_1.1.2
答案 0 :(得分:1)
取실(U + C2E4),我们看到它的UTF-8值是0xEC 0x8B 0xA4
(3个字节)。这符合预期的URL编码。您的错误结果似乎是由另一个字符集(EUC-KR?)