Question

需要创建awk脚本以将glyph（https://en.wikipedia.org/wiki/Glyph）转换为Unicode（JavaScript语法），反之亦然 - 将Unicode转换为字形。

源数据存储在NotePad++ UTF-8编码。

这是我的进步。

Use_case_1

字典文件（dict_1_.txt）：

A \u0041
À \u00C0

输入文件（input_1_.txt）：

A
À

用于为等效字形生成Unicode的

awk脚本：

awk 'NR == FNR { a[$1] = $2; next } $1 in a { $1 = a[$1] } $2 in a { $2 = a[$2] } 1' dict_1_.txt input_1_.txt

正确生产：

\u0041
\u00C0

Use_case_2

字典文件（dict_2_.txt）

\u0041 A
\u00C0 À

输入文件（input_2_.txt）

\u0041
\u00C0

awk脚本，用于生成等效Unicode的字形：

awk 'NR == FNR { a[$1] = $2; next } $1 in a { $1 = a[$1] } $2 in a { $2 = a[$2] } 1' dict_2.txt input_2.txt

正确生产：

A
À

所以，可以成功＆＃34;往返＆＃34;在一个符号上。

但是如何处理更全面的字典和每行多个单词？

以下是样本数据。

输入文件（input_3_.txt）

PUDÍN, ALMIDÓN

字典文件（dict_3_.txt）

,   \u002C
A   \u0041
D   \u0044
I   \u0049
Í   \u00CD
L   \u004C
M   \u004D
N   \u006E
Ó   \u00D3
P   \u0050
U   \u0055
<space> \u0020

awk脚本应生成：

\u0050\u0055\u0044\u00CD\u006E\u002C\u002C\u0041\u004C\u004D\u0049\u0044\u00D3\u006E

输入文件（input_4_.txt）

\u0050\u0055\u0044\u00CD\u006E\u002C\u002C\u0041\u004C\u004D\u0049\u0044\u00D3\u006E

字典文件（dict_4_.txt）

\u002C  ,
\u0041  A
\u0044  D
\u0049  I
\u00CD  Í
\u004C  L
\u004D  M
\u006E  N
\u00D3  Ó
\u0050  P
\u0055  U
\u0020  <space>

awk脚本应生成：

PUDÍN, ALMIDÓN

这是一组更复杂的输入字符串（每行一个）：

MONO Y DIACETIL ÉSTERES DEL ÁCIDO TARTÁRICO DE MONO Y DIGLICÉRIDOS DE ÁCIDOS GRASOS AÑADIDOS
043 HUEVAS DE PESCADO (INCLUYENDO ESPERMA=HUEVAS BLANDAS) Y VÍSCERAS COMESTIBLES DE PESCADO
ACEITE DE SOJA OXIDADO TÉRMICAMENTE Y EN INTERACCIÓN CON MONO Y DIGLICÉRIDOS DE ÁCIDOS GRASOS
BANDEJA PLÁSTICA O CAZUELA, CUBIERTA DE PAPEL DE ALUMINIO O ENVOLTURA

在上面的词典示例中，使用<space>来表示符号＆＃39;在单词之间和逗号之后。这可能意味着解决方案应该在Dictionary文件和Input文件中使用\t FS。目前FS是键盘空间＆＃39;。 RS也是\n。

此外，我需要对十六进制执行相同的操作，因此解决方案需要像这样处理Dictionary文件：

Í   &#xcd;
Ó   &#xd3;

与上面的词典示例相比：

Í   \u00CD
Ó   \u00D3

如何使用处理多行上较长字符串的脚本来改进或替换我的简单awk脚本？

Answer 1

这是一种方法，请注意，您不需要两个不同版本的字典。

只需很少的努力就可以将这两个组合成一个脚本，并且可以使用参数控制从/到转换。我故意保持字典部分相同

$ awk 'NR==FNR {$2=$2?$2:" "; u2a[$1]=$2; a2u[$2]=$1; next}
               {for(i=1;i<=NF;i++) $i=a2u[$i]}1' dict FS='' OFS='' input

\u0050\u0055\u0044\u00CD\u006E\u002C\u0020\u0041\u004C\u004D\u0049\u0044\u00D3\u006E

现在使用编码输入

$ awk 'NR==FNR {$2=$2?$2:" "; u2a[$1]=$2; a2u[$2]=$1; next}
               {enc=$0; gsub(/....../,"& ",enc); n=split(enc,a);
                for(i=1;i<=n;i++) line=line u2a[a[i]]; print line}' dict encoded_input

PUDÍN, ALMIDÓN

使用dict_4作为两个脚本的字典

使用awk，如何将一个字符串替换为另一个字符串？

1 个答案: