向数据添加拼写/语法错误

时间:2017-06-12 17:46:17

标签: machine-learning nlp deep-learning

基本上,我想增加我已经拥有的数据集,包含一系列句子,为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的,即没有任何拼写/语法错误。如何做到这一点,记住不应该在任何特定句子中添加太多错误,从而防止其意义/意义的改变。

1 个答案:

答案 0 :(得分:0)

你看过Edit Distance吗?

编辑距离根据4个基本操作测量单词之间的距离:

  1. 插入(添加字符x)[1个单位]
  2. 删除(删除x)[1个单位]
  3. 换位(交换两个相邻的字符xy)[1个单位]
  4. 替换(用x替换y)[2个单位= 1个插入+ 1个删除]
  5. 例如,“algorithm”和“logarithm”之间的编辑距离为3。

    要引入模拟真实世界数据的有意义的噪音,您可以考虑以下方法:

    1. 在每个字符串中,随机取1-2个字
    2. 对于每个随机单词,选择4个操作中的一个并将其随机应用于单词的任何部分。您也可以对同一个单词应用2个操作。 在现实世界中,您不会发现比编辑距离3-4更严重的错误。
    3. 考虑编辑距离的原因是你应该确保你的错误拼写不会偏离正确的拼写超过2-4。