我确实有一个图像数据集(类似于ImageNet),每个图像都带有“拼写错误描述”。我想在这个人身上运行一些深度卷积神经网络,但我需要先生成“标签”。所以,这是问题:
如何从“有拼写错误的描述”中生成类别“标签”?
数据集包含大约13M的图像,其中包含相应的(有效)“描述”和可选的“拼写错误”。以下是“描述”的一些示例:
我正在考虑以下列方式解决问题。
答案 0 :(得分:1)
这里有一些想法:
您应该清楚地进行拼写检查,否则您的标签会更加嘈杂。选项:
检查信息检索课程并实施检查,google lecture3-tolerant-retrieval-handout-6-per.pdf(我打赌这不是要走的路)如果你想要频率,google&# 34;自然语言语料库数据"
使用一些代码http://norvig.com/spell-correct.html(多种语言)
关于标签(我想你自动想要它,否则有半自动方法):
我希望这可能有用