我有一个用一种元语言编写的文件,它描述了验证某些数据所需的过程。 我需要生成验证函数来验证数据。 数据已存储在结构中
我做的步骤:
您将在步骤3或一般情况下使用什么来改进此程序?
答案 0 :(得分:0)
引自wiki,正则表达式是实现“文本规范化”的技术之一:
用于简单的,与上下文无关的规范化,例如删除 非字母数字字符或变音符号,正则表达式 就够了例如,sed脚本sed -e“s / \ s + / / g” inputfile会将空格字符的运行规范化为单个字符 空间。更复杂的归一化需要相应的复杂化 算法,包括语言和词汇的领域知识 正常化。在其他方法中,文本规范化已经存在 建模为标记和标记文本流的问题[5]和 作为机器翻译的特例。[6] [7]
在我看来,数据涉及语言注释。您可以查看The IMS Open Corpus Workbench (CWB)等工具。此外,您可能会发现另一个有用的网站(包含示例代码):What Is Text Normalization?。