文本文件规范化和模式匹配

时间:2016-03-17 19:05:35

标签: regex text pattern-matching normalization text-normalization

我有一个用一种元语言编写的文件,它描述了验证某些数据所需的过程。 我需要生成验证函数来验证数据。 数据已存储在结构中

我做的步骤:

  1. 将文字拆分为字符串[],使用字母('。,; ==> =)
  2. 删除文章,介词......
  3. 规范化文字(如何?)
  4. 使用正则表达式或文本匹配
  5. 将单词与令牌匹配
  6. 使用令牌类型
  7. 匹配patern
  8. 根据匹配的模式规则生成函数

  9. 您将在步骤3或一般情况下使用什么来改进此程序?

1 个答案:

答案 0 :(得分:0)

引自wiki,正则表达式是实现“文本规范化”的技术之一:

  

用于简单的,与上下文无关的规范化,例如删除   非字母数字字符或变音符号,正则表达式   就够了例如,sed脚本sed -e“s / \ s + / / g”   inputfile会将空格字符的运行规范化为单个字符   空间。更复杂的归一化需要相应的复杂化   算法,包括语言和词汇的领域知识   正常化。在其他方法中,文本规范化已经存在   建模为标记和标记文本流的问题[5]和   作为机器翻译的特例。[6] [7]

在我看来,数据涉及语言注释。您可以查看The IMS Open Corpus Workbench (CWB)等工具。此外,您可能会发现另一个有用的网站(包含示例代码):What Is Text Normalization?