提取特定语言的字符

时间:2009-10-02 08:39:10

标签: unicode extract

如何从包含语言字符的文件中仅提取特定语言的字符,字母数字字符英文字母

1 个答案:

答案 0 :(得分:0)

这取决于几个因素:

  1. 字符串是否以UTF-8编码?

  2. 您是否想要所有非英文字符,包括符号和标点符号等内容,或者只需要来自书面语言的非符号字符?

  3. 您想捕捉非英语或非拉丁语的字符吗?我的意思是,你想要éç之类的字符,还是只想要浪漫和日耳曼字母以外的字符?

  4. 最后,

    1. 您希望使用哪种编程语言?
    2. 假设您使用的是UTF-8,您不需要基本的标点符号,但可以使用其他符号,并且您不需要任何标准的拉丁字符,但可以使用带重音的字符等,您可以在您使用的任何语言中使用字符串正则表达式函数来搜索所有非Ascii字符。这将消除你可能试图淘汰的大部分内容。

      在php中它将是:

      $string2 = preg_replace('/[^(\x00-\x7F)]*/','', $string1);
      

      但是,这会删除您可能想要或不想要的行结尾。