如何从“indic”文本文件中的几个单词中分离出唯一的字符?

时间:2014-08-12 09:56:52

标签: unix tr chars

我是一个纯文本文件。

> Input: इंजेक्शन इंटरनॅशनल इंटिग्रेटेड इंटिरिअर इंडस्ट्री

所有单词都由一个或多个空格分隔。我想从文本文件中收集所有唯一的字符。我正在寻找一个unix命令;结果字符的顺序并不重要。

> Expected result: इं जे क्श न ट र नॅ श ल इ्रे टे ड टि रिअ र ड स्ट्री

使用Klaus提供的命令

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

结果如下:

  

ंअइइ््<

我不想将水平或垂直合音或从属元音与其基本字符分开。

我只想将一个单词中的完整字符彼此分开。

我们可以使用UNIX命令实现这一目标吗?

  

&#34;基本字符&#34; +&#34;依赖元音&#34; =&#34;完整的角色&#34;

 -  क                   ा                        का 
 -  क                   ि                        कि

Klaus的命令仅适用于英文文本。但是,它不适用于印地语等印度语。

  

输入:hi1 hello-2 how!3&#34; are4?you5

     

结果:我喜欢你1 2 3 4 5 - ! &#34;

注意: - 您必须在操作系统中安装印度语支持。 另外,从http://hindi-fonts.com/fonts/Mangal

下载Mangal字体

1 个答案:

答案 0 :(得分:2)

试试这个:

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

或简化(从fedorqui评论中删除,谢谢!之前从未见过&替换部分。很高兴学到新东西!)

sed 's/./&\n/g' <file> | sort -u | tr -d '\n'