我希望(在R语言中)创建一个“十进制HTML解码器”,例如本网站实现的解码器:
http://www.hashemian.com/tools/html-url-encode-decode.php
但我不知道从哪里开始,是否有人可以提出任何关于阅读内容/使用哪个翻译表(或公式)的指示?
我最初的动机是希伯来字符的解码。 (例如,这样的翻译:
שלום
对此:
שלום
)
(帽子提示指向Matt Shotwell指示)
答案 0 :(得分:2)
inp <- "שלום"
nohash <- sub("#", "0", strsplit(inp, "&")[[1]]) # cvrt # to 0
nohash
# [1] "" "0x5E9;" "0x5DC;" "0x5D5;" "0x5DD;"
strtoi( sub(";", "", nohash) ) # remove trailing ";" and cvrt to dec
# [1] 0 1513 1500 1493 1501
修改添加到我的评论中的时间已过期,因此我将添加此链接似乎有conversion table: