Question

我希望（在R语言中）创建一个“十进制HTML解码器”，例如本网站实现的解码器：

http://www.hashemian.com/tools/html-url-encode-decode.php

但我不知道从哪里开始，是否有人可以提出任何关于阅读内容/使用哪个翻译表（或公式）的指示？

我最初的动机是希伯来字符的解码。（例如，这样的翻译：

&#x5E9;&#x5DC;&#x5D5;&#x5DD;

对此：

שלום

）

（帽子提示指向Matt Shotwell指示）

Answer 1

inp <- "&#x5E9;&#x5DC;&#x5D5;&#x5DD;"
nohash <- sub("#", "0", strsplit(inp, "&")[[1]])  # cvrt # to 0
nohash
# [1] ""       "0x5E9;" "0x5DC;" "0x5D5;" "0x5DD;"
strtoi( sub(";", "", nohash) )  # remove trailing ";" and cvrt to dec
# [1]    0 1513 1500 1493 1501

修改添加到我的评论中的时间已过期，因此我将添加此链接似乎有conversion table：

如何编写“十进制HTML解码器”？

1 个答案: