我正在使用' sed' HP UX中的命令用于从“数据”的第一行中提取电子邮件地址。使用以下脚本文件:
sed -n "/FH/p" $eachFile | cut -c109-500 | perl -wne'while(/[\w\.\-]+@[\w\.\-]+/g){print "$&,"}
该文件包含中文字符。当文件编码为' UTF 8 w / o BOM'时,它会按预期提取电子邮件地址,如果文件编码为' UCS-2 Little Endian',则不会读取在一定的汉字之后排队。因此不会返回电子邮件地址。
我怀疑某些汉字是否与“sed”有关。命令。