Question

我试图了解如何在UNIX中准确地操作字符和字符集，因为存在不同的语言环境 - 并且这样做不需要UNIX标准项之外的特殊工具。

我的研究向我展示了德国尖锐角色的问题：一个角色变成两个 - 以及其他问题。使用tr显然是一个非常糟糕的主意。我看到的唯一选择是：

echo StUfF | perl -n -e "print lc($_);"

但我不确定它会起作用，它需要Perl - 这不是一个坏的要求，而是一个非常大的锤子......

awk和grep以及sed和......怎么样？这或多或少是我的问题：我怎样才能确定每个语言环境中的文本都是低级的？

Answer 1

Perl lc / uc适用于大多数语言，但它无法正常使用土耳其语，有关详细信息，请参阅this bug report of mine。但是如果你不需要担心土耳其语，那么Perl就不错了。

Answer 2

您无法确定每个区域设置中的文本是否正确。这是不可能的，软件库中总是存在一些关于i18n相关人员实施的错误。

如果你不害怕使用C ++或Java，你可以看一下ICU实现广泛的整理，规范化等规则。