无监督自动标记算法?

时间:2013-03-13 04:48:21

标签: algorithm machine-learning nlp tagging

我想构建一个网络应用程序,让用户上传文档视频图像音乐,然后给他们一个搜索它们的能力。可以将其视为 Dropbox +语义搜索。

当用户上传新文件时,例如 Document1.docx ,如何根据文件内容自动生成代码?换句话说,不需要用户输入来确定文件的内容。如果假设 Document1.docx 是关于数据挖掘的研究论文,那么当用户搜索数据挖掘研究论文 document1 ,该文件应在搜索结果中返回,因为数据挖掘研究论文很可能是该给定文档的潜在自动生成标记。

1。您会针对此问题推荐哪种算法?

2。是否有一个自然语言库可以为我做这个?

第3。我应该研究哪种机器学习技术来提高标记精度?

4。如何将其扩展为视频和图像自动标记?

提前致谢!

5 个答案:

答案 0 :(得分:19)

此类任务最常见的无监督机器学习模型是Latent Dirichlet Allocation(LDA)。该模型基于这些文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行LDA会在搜索某些主题时为某些主题分配单词,然后您可以检索具有最高概率的文档与该单词相关。

图片和音乐也有一些扩展,请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf

LDA在几种语言中有几种有效的实现方式:

答案 1 :(得分:4)

这些人提出了LDA的替代方案。

  

自动标签推荐算法   社会推荐系统   http://research.microsoft.com/pubs/79896/tagging.pdf

Haven没有阅读整篇论文,但他们有两种算法:

  1. 监督学习版。这不是那么糟糕。您可以使用Wikipedia来训练算法
  2. "原型"版。 Haven没有机会通过这个,但这是他们的建议
  3. 更新:我已经对此进行了一些研究,并且我找到了另一种方法。基本上,它是一个两阶段的方法,理解和实施起来非常简单。虽然对于100,000个文档而言速度太慢,但它(可能)对于1000个文档具有良好的性能(因此它非常适合标记单个用户的文档)。我将尝试这种方法,并将报告性能/可用性。

    与此同时,方法如下:

    1. 根据http://qr.ae/36RAP使用TextRank为单个文档生成标记列表。这将为单个文档生成独立于其他文档的标记列表
    2. 使用"使用机器学习支持连续的算法 本体开发" (https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development)将标记列表(从步骤1)集成到现有标记列表中。

答案 2 :(得分:1)

可以使用此关键短语提取算法/包标记文本文档。 http://www.nzdl.org/Kea/ 目前它支持有限类型的文件(我猜是农业和医疗),但您可以根据您的要求进行培训。

我不确定图像/视频部分是如何工作的,除非你正在进行非常精确的物体检测(它有自己的缺点)。你打算怎么做?

答案 3 :(得分:1)

您要使用自动且不受监督的Doc-Tag(https://www.Doc-Tags.com)商业产品-生成上下文准确的文档标签。内置的报告功能使该产品成为轻量级的文档管理系统。

对于希望定制自己的方法的开发人员-源代码可用(非常便宜),后端服务xAIgent(https://xAIgent.com)使用起来非常便宜。

答案 4 :(得分:0)

我今天发布了一篇博客文章来回答你的问题。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

基本上有两种方法可以自动从图像和视频中提取关键字。

  1. 多实例学习(MIL)
  2. 深度神经网络(DNN),递归神经网络(RNN)和变体
  3. 在上面的博客文章中,我列出了最新的研究论文来说明解决方案。其中一些甚至包括演示站点和源代码。

    谢谢,斯科特