我想构建一个网络应用程序,让用户上传文档,视频,图像,音乐,然后给他们一个搜索它们的能力。可以将其视为 Dropbox +语义搜索。
当用户上传新文件时,例如 Document1.docx ,如何根据文件内容自动生成代码?换句话说,不需要用户输入来确定文件的内容。如果假设 Document1.docx 是关于数据挖掘的研究论文,那么当用户搜索数据挖掘或研究论文或 document1 ,该文件应在搜索结果中返回,因为数据挖掘和研究论文很可能是该给定文档的潜在自动生成标记。
的 1。您会针对此问题推荐哪种算法?
的 2。是否有一个自然语言库可以为我做这个?
第3。我应该研究哪种机器学习技术来提高标记精度?
的 4。如何将其扩展为视频和图像自动标记?
提前致谢!
答案 0 :(得分:19)
此类任务最常见的无监督机器学习模型是Latent Dirichlet Allocation(LDA)。该模型基于这些文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行LDA会在搜索某些主题时为某些主题分配单词,然后您可以检索具有最高概率的文档与该单词相关。
图片和音乐也有一些扩展,请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。
LDA在几种语言中有几种有效的实现方式:
答案 1 :(得分:4)
这些人提出了LDA的替代方案。
自动标签推荐算法 社会推荐系统 http://research.microsoft.com/pubs/79896/tagging.pdf
Haven没有阅读整篇论文,但他们有两种算法:
更新:我已经对此进行了一些研究,并且我找到了另一种方法。基本上,它是一个两阶段的方法,理解和实施起来非常简单。虽然对于100,000个文档而言速度太慢,但它(可能)对于1000个文档具有良好的性能(因此它非常适合标记单个用户的文档)。我将尝试这种方法,并将报告性能/可用性。
与此同时,方法如下:
答案 2 :(得分:1)
可以使用此关键短语提取算法/包标记文本文档。 http://www.nzdl.org/Kea/ 目前它支持有限类型的文件(我猜是农业和医疗),但您可以根据您的要求进行培训。
我不确定图像/视频部分是如何工作的,除非你正在进行非常精确的物体检测(它有自己的缺点)。你打算怎么做?
答案 3 :(得分:1)
您要使用自动且不受监督的Doc-Tag(https://www.Doc-Tags.com)商业产品-生成上下文准确的文档标签。内置的报告功能使该产品成为轻量级的文档管理系统。
对于希望定制自己的方法的开发人员-源代码可用(非常便宜),后端服务xAIgent(https://xAIgent.com)使用起来非常便宜。
答案 4 :(得分:0)
我今天发布了一篇博客文章来回答你的问题。
http://scottge.net/2015/06/30/automatic-image-and-video-tagging/
基本上有两种方法可以自动从图像和视频中提取关键字。
在上面的博客文章中,我列出了最新的研究论文来说明解决方案。其中一些甚至包括演示站点和源代码。
谢谢,斯科特