基本上,我想增加我已经拥有的数据集,包含一系列句子,为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的,即没有任何拼写/语法错误。如何做到这一点,记住不应该在任何特定句子中添加太多错误,从而防止其意义/意义的改变。
答案 0 :(得分:0)
你看过Edit Distance吗?
编辑距离根据4个基本操作测量单词之间的距离:
x
)[1个单位] x
)[1个单位] x
和y
)[1个单位] x
替换y
)[2个单位= 1个插入+ 1个删除] 例如,“algorithm”和“logarithm”之间的编辑距离为3。
要引入模拟真实世界数据的有意义的噪音,您可以考虑以下方法:
考虑编辑距离的原因是你应该确保你的错误拼写不会偏离正确的拼写超过2-4。