如何编写“十进制HTML解码器”?

时间:2010-12-09 19:34:42

标签: r html-encode

我希望(在R语言中)创建一个“十进制HTML解码器”,例如本网站实现的解码器:

http://www.hashemian.com/tools/html-url-encode-decode.php

但我不知道从哪里开始,是否有人可以提出任何关于阅读内容/使用哪个翻译表(或公式)的指示?

我最初的动机是希伯来字符的解码。 (例如,这样的翻译:

שלום

对此:

שלום

(帽子提示指向Matt Shotwell指示)

1 个答案:

答案 0 :(得分:2)

inp <- "&#x5E9;&#x5DC;&#x5D5;&#x5DD;"
nohash <- sub("#", "0", strsplit(inp, "&")[[1]])  # cvrt # to 0
nohash
# [1] ""       "0x5E9;" "0x5DC;" "0x5D5;" "0x5DD;"
strtoi( sub(";", "", nohash) )  # remove trailing ";" and cvrt to dec
# [1]    0 1513 1500 1493 1501

修改添加到我的评论中的时间已过期,因此我将添加此链接似乎有conversion table