编码网址UTF8 - shell脚本

时间:2017-08-06 09:36:19

标签: java bash shell

我正在使用以下函数对我的bash脚本中的url / titles进行编码

urlencode() {
    # urlencode <string>
    old_lc_collate=$LC_COLLATE
    LC_COLLATE=C

    local length="${#1}"
    for (( i = 0; i < length; i++ )); do
        local c="${1:i:1}"
        case $c in
            [a-zA-Z0-9.~_-]) printf "$c" ;;
            *) printf '%%%02X' "'$c" ;;
        esac
    done

    LC_COLLATE=$old_lc_collate
}
某些参数的输出如下:

description=%627%644%639%628%627%62F%64A
downloadurl=http%3A%2F%2Fmedia.myhomepage.com%2Fmedia%2FVT-142437WE-WEB-IRQ-MOSUL-PROGRESS-HAWAMDA_2017-03-08_14%3A28%3A12.mp4
title=%623%647%644GKxS7otlAsujiRxXHTvshUE9

还使用以下java代码对同一个param进行编码

URLEncoder.encode(video.getHeadline() , UTF_8_ENCODING).replace("+", "%20");
URLEncoder.encode(video.getHeadline() , UTF_8_ENCODING)

和out不同于bash

description=%D8%A7%D9%82%D8%AA%D8%AD%D9%85%D8%AA%20%D8%A7%D9%84%D9%82%D9%88%D8%A7%D8%AA%20%D8%A7%D9%84%D8%B9%D8%B1%D8%A7%D9%82%D9%8A%D8%A9%20%D8%AD%D9%8A%20%D8%A7%D9%84%D9%85%D9%86%D8%B5%D9%88%D8%B1%20%D8%BA%D8%B1%D8%A8%20%D8%A7%D9%84%D9%85%D9%88%D8%B5%D9%84%20%D8%B6%D9%85%D9%86%20%D8%AA%D9%82%D8%AF%D9%85%D9%87%D8%A7%20%D9%81%D9%8A%20%D8%A7%D9%84%D8%B3%D8%A7%D8%AD%D9%84%20%D8%A7%D9%84%D8%BA%D8%B1%D8%A8%D9%8A%20%D9%85%D9%86%20%D8%A7%D9%84%D9%85%D8%AF%D9%8A%D9%86%D8%A9%20%D8%AA%D9%85%D9%87%D9%8A%D8%AF%D8%A7%20%D9%84%D8%A7%D8%B3%D8%AA%D8%B9%D8%A7%D8%AF%D8%AA%D9%87%D8%A7%20%D9%85%D9%86%20%D8%AF%D8%A7%D8%B9%D8%B4.%20%D9%85%D9%86%20%D8%AC%D9%87%D8%A9%20%D8%A3%D8%AE%D8%B1%D9%89%20%D8%AE%D9%8A%D9%91%D8%B1%20%D8%B1%D8%A6%D9%8A%D8%B3%20%D8%A7%D9%84%D9%88%D8%B2%D8%B1%D8%A7%D8%A1%20%D8%A7%D9%84%D8%B9%D8%B1%D8%A7%D9%82%D9%8A%20%D8%AD%D9%8A%D8%AF%D8%B1%20%D8%A7%D9%84%D8%B9%D8%A8%D8%A7%D8%AF%D9%8A%20%D9%85%D8%B3%D9%84%D8%AD%D9%8A%20%D8%A7%D9%84%D8%AA%D9%86%D8%B8%D9%8A%D9%85%20%D8%A8%D9%8A%D9%86%20%D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%B3%D9%84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9%82%D8%AA%D9%84.


downloadurl=http%3A%2F%2FFmedia.myhomepage.com%2Fmedia%2Fvideos%2F2017%2F03%2F08%2FVT-142437WE-WEB-IRQ-MOSUL-PROGRESS-HAWAMDA_2017-03-08_14%3A28%3A12.mp4


title=%D8%A7%D9%84%D8%B9%D8%A8%D8%A7%D8%AF%D9%8A%20%D9%8A%D8%AE%D9%8A%D8%B1%20%D9%85%D8%B3%D9%84%D8%AD%D9%8A%20%D8%AF%D8%A7%D8%B9%D8%B4%20%D8%A8%D9%8A%D9%86%20%D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%B3%D9%84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9%82%D8%AA%D9%84

请告诉我如何在bash中使用bash shell中的java.net.URLEncoder.encode()对应的bash中输出相同的java输出

2 个答案:

答案 0 :(得分:1)

如果您需要对数据进行网址编码,以便稍后将其传递给curl(正如您在评论中提到的那样),我建议让curl使用{{3}为您处理编码选项。

例如:

title="Mačka"
url="http://google.com/?q=mačka"
curl -G example.com/?foo=bar --data-urlencode "title=$title" --data-urlencode "url=$url"

发出如下命令:

GET /?foo=bar&title=Ma%C4%8Dka&url=http%3A%2F%2Fgoogle.com%2F%3Fq%3Dma%C4%8Dka

注意使用-G强制GET方法;没有它,任何--data-*选项都默认为POST方法和正文中的参数。

答案 1 :(得分:0)

这个oneliner依赖xxd来获取字符串的hexdump,然后预先设置转义:

string="العبادي يخير مسلحي داعش بين الاستسلام والقتل"
echo $string | xxd -g 1 | cut -d' ' -f2-17 | sed 's/\([0-9a-f][0-9a-f]\) /%\1/g' | sed  -e ':a' -e 'N' -e '$!ba' -e 's/\n//g'

结果:

  

%D8%A7%D9%84%D8%B9%D8%A8%D8%A7%D8%AF%D9%8A%20d9%8A%D8%AE%D9%8A%D8%B1%20% D9%85%D8%B3%D9%84%d8ad%D9%8A%20%D8%AF%D8%A7%D8%B9%D8%B4%20%D8%A8%d98a%D9%86%20% D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%b3d9%84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9% 82%d8aa%D9%84%0A