如何用bash将阿拉伯语Presentation Forms-B转换为普通的阿拉伯字符?

时间:2016-09-09 16:11:57

标签: unicode

当我使用pdftotext将pdf文件转换为文本文件时,阿拉伯字符以非常方便的方式出现,如ع,如何将所有这些字符转换为普通的阿拉伯字符?

1 个答案:

答案 0 :(得分:1)

您可以使用此代码:

注意:如果您需要原始文本,可能需要更改某些行,如ا,å,ي和لا。但如果你想避免与这些字母有关的人犯错误,你可以使用它。

cat file.txt | sed 's/[ﺀﺁﺂﺃﺄﺅﺆﺇﺈﺉﺊﺋﺌﺍﺎ]/ا/g;'\
's/[ﺏﺐﺑﺒ]/ب/g;'\
's/[ﺓﺔ]/ه/g;'\
's/[ﺕﺖﺗﺘ]/ت/g;'\
's/[ﺙﺚﺛﺜ]/ث/g;'\
's/[ﺝﺞﺟﺠ]/ج/g;'\
's/[ﺡﺢﺣﺤ]/ح/g;'\
's/[ﺥﺦﺧﺨ]/خ/g;'\
's/[ﺩﺪ]/د/g;'\
's/[ﺫﺬ]/ذ/g;'\
's/[ﺭﺮ]/ر/g;'\
's/[ﺯﺰ]/ز/g;'\
's/[ﺱﺲﺳﺴ]/س/g;'\
's/[ﺵﺶﺷﺸ]/ش/g;'\
's/[ﺹﺺﺻﺼ]/ص/g;'\
's/[ﺽﺾﺿﻀ]/ض/g;'\
's/[ﻁﻂﻃﻄ]/ط/g;'\
's/[ﻅﻆﻇﻈ]/ظ/g;'\
's/[ﻉﻊﻋﻌ]/ع/g;'\
's/[ﻍﻎﻏﻐ]/غ/g;'\
's/[ﻑﻒﻓﻔ]/ف/g;'\
's/[ﻕﻖﻗﻘ]/ق/g;'\
's/[ﻙﻚﻛﻜ]/ك/g;'\
's/[ﻝﻞﻟﻠ]/ل/g;'\
's/[ﻡﻢﻣﻤ]/م/g;'\
's/[ﻥﻦﻧﻨ]/ن/g;'\
's/[ﻩﻪﻫﻬ]/ه/g;'\
's/[ﻭﻮ]/و/g;'\
's/[ﻯﻰﻱﻲﻳﻴ]/ي/g;'\
's/[ﻵﻶﻷﻸﻹﻺﻻﻼ]/لا/g;'