为SMS文本规范化注释语料库

时间:2013-04-07 10:07:40

标签: nlp corpus

我想使用监督学习技术构建一个SMS Text Normalizer。 SMS文本规范化是将SMS术语转换为正确的英语的任务。

例如''wts up?你好吗?'会成为'怎么了?你回家吗?'。

理想情况下,我想要一个随时可用的语料库,其中包含SMS Text和随后的英文文本作为训练数据。但是,我在网上找不到任何这样的公开数据集。 (SMS文本语料库可用,但不是语法正确的英语相应的文本)以前处理过类似问题的人似乎已经手动注释了文本。

  1. 这是注释此文本的最快方式?可能,人们可以从标准短信转换站点/城市词典中搜索每个单词令牌的数据,以获得相同的英语单词。但这只适用于标准的SMS文本,并且只能略微减少手动工作。

  2. 对语料库进行分区并要求个人手动对其进行注释,但这对于大量文本来说会非常缓慢。

1 个答案:

答案 0 :(得分:0)

构建带注释的语料库需要付出很多努力(参见this paper中的相关工作)。您现在可以选择:

  • 您可以从头开始进行所有注释。 (需要很长时间且容易出错)
  • 您可以使用生成注释的工具(例如,词形变换器),您可以更正它们。 (更快捷的方式)

对我们来说,使用了自定义注释工具(参见论文链接)。该工具结合了两种解决方案并加快了注释过程。