关键词识别 - 有可能吗?

时间:2012-10-24 21:33:51

标签: artificial-intelligence neural-network keyword

我有一个系统,可以让用户搜索他想要的任何内容,并将来自不同地方的内容抓取到一个页面中。

我通过关键字/标签或几个关键字限制搜索结果,因此用户不会得到他从未要求的垃圾。 我总是坚持主要的市场/标签主题(关键字),不要让搜索出错。

一开始一切都很好,但是当我深入开发这个系统时,我开始明白我无法预测或过滤将要检索的内容。

系统是自动的,例如,当你搜索“Christiano Ronaldo”时,我想要他的照片,视频,视频,新闻和其他内容。 当我构建一个页面时,为了增强我的搜索引擎优化,我使用内容中的大多数重复单词来提供更多,在“查看更多”或基于1个用户搜索生成更多页面的链接中。

当自动内容抓取工具开始带来废话内容时,我遇到了问题。 我搜索“处女大西洋”,它给我带来航空公司的信息,这就是我想要的,使用部分内容和关键信息我会进一步查看,它带给我弗吉尼亚,这是相关的,但不是我的意思想。 然后它带来东/西,然后是美国,然后它朝着错误的方向越来越深。

这是一个简短的说法。我真正的问题是......是否有任何算法,理论或其他内容可供阅读,是否有可能将内容/关键字的主题/方向/含义/相关性识别为我手动设置的主题。

所以,如果我说 - >去看看体育相关的内容,它不会给我带来关于罗纳尔多的新女友的消息,但是他的统计数据,职业数据和类似的东西。

我不在乎让人手动过滤内容并告诉AI: 接受/拒绝所以它将根据要求的主题/模式学习带来什么和不带来什么。

神经网络,任何其他A.I.识别内容的算法?

1 个答案:

答案 0 :(得分:2)

简短回答:看看隐马尔可夫模型和贝叶斯网络以及语义网络研究。人们可以通过对这个主题的研究填补整个图书馆。

答案很长

AI的问题通常是这些类型的问题非常非常困难。是的,有很多理论。但实施这些理论是另一回事。我见过公司建立某种引擎,他们为此感到非常自豪。但是他们通常以工具为重点,忘记他们实际想要解决的问题。这就是我称之为AI-blackbox-problem的问题。你有一个算法,如隐马尔可夫模型,神经网络,贝叶斯网络,卡尔曼滤波器,支持向量机等。然后你扔了一堆数据,他们ouptut一堆参数化模型。但通常无法追踪内部状态。

因此,如果您想解决语义网问题,那么您已经选择了最困难的问题之一。如何告诉电脑你在找什么?谷歌使用链接结构来检索信息。然后是语义网络支持者,他们说内容提供者应该添加一堆元数据。我认为这种方法基本上失败了。总有新的创业公司试图在这个领域做新事物。 Palantir可能是其中一家数据挖掘公司。

因此,我建议首先学习使用玩具问题的基础知识,拿起教科书,如Russell / Norvig,上课,你现在可以在网上做http://www.udacity.com/overview/Course/cs373/CourseRev/apr2012,然后从那里开始。玩硬问题没什么不对,但很容易受挫。知道你的问题在有限的时间和资源中是可以解决的。 (说自己在一个几乎不可能的问题上工作了5年)。