Question

我是一个纯文本文件。

> Input: इंजेक्शन इंटरनॅशनल इंटिग्रेटेड इंटिरिअर इंडस्ट्री

所有单词都由一个或多个空格分隔。我想从文本文件中收集所有唯一的字符。我正在寻找一个unix命令;结果字符的顺序并不重要。

> Expected result: इं जे क्श न ट र नॅ श ल इ्रे टे ड टि रिअ र ड स्ट्री

使用Klaus提供的命令

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

结果如下：

ंअइइ््<

我不想将水平或垂直合音或从属元音与其基本字符分开。

我只想将一个单词中的完整字符彼此分开。

我们可以使用UNIX命令实现这一目标吗？

＆＃34;基本字符＆＃34; +＆＃34;依赖元音＆＃34; =＆＃34;完整的角色＆＃34;

 -  क                   ा                        का 
 -  क                   ि                        कि

Klaus的命令仅适用于英文文本。但是，它不适用于印地语等印度语。

输入：hi1 hello-2 how！3＆＃34; are4？you5

结果：我喜欢你1 2 3 4 5 - ！＆＃34;

注意： - 您必须在操作系统中安装印度语支持。另外，从http://hindi-fonts.com/fonts/Mangal

下载Mangal字体

Answer 1

试试这个：

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

或简化（从fedorqui评论中删除，谢谢！之前从未见过&替换部分。很高兴学到新东西！）

sed 's/./&\n/g' <file> | sort -u | tr -d '\n'