我想使用监督学习技术构建一个SMS Text Normalizer。 SMS文本规范化是将SMS术语转换为正确的英语的任务。
例如''wts up?你好吗?'会成为'怎么了?你回家吗?'。
理想情况下,我想要一个随时可用的语料库,其中包含SMS Text和随后的英文文本作为训练数据。但是,我在网上找不到任何这样的公开数据集。 (SMS文本语料库可用,但不是语法正确的英语相应的文本)以前处理过类似问题的人似乎已经手动注释了文本。
这是注释此文本的最快方式?可能,人们可以从标准短信转换站点/城市词典中搜索每个单词令牌的数据,以获得相同的英语单词。但这只适用于标准的SMS文本,并且只能略微减少手动工作。
对语料库进行分区并要求个人手动对其进行注释,但这对于大量文本来说会非常缓慢。
答案 0 :(得分:0)
构建带注释的语料库需要付出很多努力(参见this paper中的相关工作)。您现在可以选择:
对我们来说,使用了自定义注释工具(参见论文链接)。该工具结合了两种解决方案并加快了注释过程。