从“有拼写错误的描述”到“标签”

时间:2014-08-12 20:27:38

标签: label spell-checking text-processing text-parsing word-cloud

背景

我确实有一个图像数据集(类似于ImageNet),每个图像都带有“拼写错误描述”。我想在这个人身上运行一些深度卷积神经网络,但我需要先生成“标签”。所以,这是问题:

问题

如何从“有拼写错误的描述”中生成类别“标签”?

技术信息

数据集包含大约13M的图像,其中包含相应的(有效)“描述”和可选的“拼写错误”。以下是“描述”的一些示例:

First example Second example

我正在考虑以下列方式解决问题。

  1. 修正拼写错误:
    • 运行拼写检查以识别拼写错误;
    • 找到可以修复它的更好的词
      • 查看数据集中的其他说明,或
      • 检查图像并手动纠正拼写错误;
  2. 生成最终标签:
    • 对句子嵌入(将句子映射成ℝᴺ的函数)运行聚类算法(例如k-means)或
    • 使用最常用的词语。

1 个答案:

答案 0 :(得分:1)

这里有一些想法:

  1. 您应该清楚地进行拼写检查,否则您的标签会更加嘈杂。选项:

    • 检查信息检索课程并实施检查,google lecture3-tolerant-retrieval-handout-6-per.pdf(我打赌这不是要走的路)如果你想要频率,google&# 34;自然语言语料库数据"

    • 使用一些代码http://norvig.com/spell-correct.html(多种语言)

  2. 关于标签(我想你自动想要它,否则有半自动方法):

    • 使用http://viget.com/extend/tagging-text-automatically我从未使用过它们,但它应该合理地运作
    • 我不建议使用k表示因为你知道组的数量
    • 使用最常用的单词可能适用于少数示例(例如您在那里展示的那些)但在许多情况下可能不起作用。
  3. 我希望这可能有用