应用错误收集

无监督自动标记算法？

时间：2013-03-13 04:48:21

标签： algorithm machine-learning nlp tagging

我想构建一个网络应用程序，让用户上传文档，视频，图像，音乐，然后给他们一个搜索它们的能力。可以将其视为 Dropbox +语义搜索。

当用户上传新文件时，例如 Document1.docx ，如何根据文件内容自动生成代码？换句话说，不需要用户输入来确定文件的内容。如果假设 Document1.docx 是关于数据挖掘的研究论文，那么当用户搜索数据挖掘或研究论文或 document1 ，该文件应在搜索结果中返回，因为数据挖掘和研究论文很可能是该给定文档的潜在自动生成标记。

的 1。您会针对此问题推荐哪种算法？

的 2。是否有一个自然语言库可以为我做这个？

第3。我应该研究哪种机器学习技术来提高标记精度？

的 4。如何将其扩展为视频和图像自动标记？

提前致谢！

5 个答案:

答案 0 :(得分：19)

此类任务最常见的无监督机器学习模型是Latent Dirichlet Allocation（LDA）。该模型基于这些文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行LDA会在搜索某些主题时为某些主题分配单词，然后您可以检索具有最高概率的文档与该单词相关。

图片和音乐也有一些扩展，请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。

LDA在几种语言中有几种有效的实现方式：

many implementations from the original researchers
http://mallet.cs.umass.edu/，用Java编写，其他人在SO
PLDA：快速，并行化的C ++实现

答案 1 :(得分：4)

这些人提出了LDA的替代方案。

自动标签推荐算法社会推荐系统 http://research.microsoft.com/pubs/79896/tagging.pdf

Haven没有阅读整篇论文，但他们有两种算法：

监督学习版。这不是那么糟糕。您可以使用Wikipedia来训练算法
＆＃34;原型＆＃34;版。 Haven没有机会通过这个，但这是他们的建议

更新：我已经对此进行了一些研究，并且我找到了另一种方法。基本上，它是一个两阶段的方法，理解和实施起来非常简单。虽然对于100,000个文档而言速度太慢，但它（可能）对于1000个文档具有良好的性能（因此它非常适合标记单个用户的文档）。我将尝试这种方法，并将报告性能/可用性。

与此同时，方法如下：

根据http://qr.ae/36RAP使用TextRank为单个文档生成标记列表。这将为单个文档生成独立于其他文档的标记列表。
使用＆＃34;使用机器学习支持连续的算法本体开发＆＃34; （https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development）将标记列表（从步骤1）集成到现有标记列表中。

答案 2 :(得分：1)

可以使用此关键短语提取算法/包标记文本文档。 http://www.nzdl.org/Kea/ 目前它支持有限类型的文件（我猜是农业和医疗），但您可以根据您的要求进行培训。

我不确定图像/视频部分是如何工作的，除非你正在进行非常精确的物体检测（它有自己的缺点）。你打算怎么做？

答案 3 :(得分：1)

您要使用自动且不受监督的Doc-Tag（https://www.Doc-Tags.com）商业产品-生成上下文准确的文档标签。内置的报告功能使该产品成为轻量级的文档管理系统。

对于希望定制自己的方法的开发人员-源代码可用（非常便宜），后端服务xAIgent（https://xAIgent.com）使用起来非常便宜。

答案 4 :(得分：0)

我今天发布了一篇博客文章来回答你的问题。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

基本上有两种方法可以自动从图像和视频中提取关键字。

多实例学习（MIL）
深度神经网络（DNN），递归神经网络（RNN）和变体

在上面的博客文章中，我列出了最新的研究论文来说明解决方案。其中一些甚至包括演示站点和源代码。

谢谢，斯科特