搜索描述

时间:2009-09-13 20:11:43

标签: theory

有一部我不记得的电影。这是一个狂欢节或游乐园,里面有一个恐怖屋和一群青少年,他们被小丑面具一个接一个地谋杀。我大约20年前看过这部电影,这是续集,但不记得它。 (还忘记了它的标题。)结果,我开始想知道如何解决技术问题。

假设我有一个包含故事情节的数据库以及每部电影的其他数据。 (类似于IMDb。)我会有一个编辑字段,用户只需在纯文本中输入描述即可。然后,系统将开始分析该文本以找到符合此描述的电影。

例如(不同的电影),我在编辑领域进入这个:“有些电影是关于埃及国王在马背上攻击一群印第安人的,但是他受了重伤,他的马在他输掉这场战斗时死了。” 然后系统应该从2004年报道电影“亚历山大”作为答案,但可能还有一些。 (甚至在描述中允许一些错误。)

要创建这样一个系统,通过搜索描述来分析描述以找到匹配的记录,那么对于那些复杂的东西,我需要哪些技术?并不是说我现在想要建立这样的东西,而是出于好奇,如果我想要一些有趣的新项目。

(我想为那些认识我刚才提到过的电影的人提供额外的积分。但是之后有一次谷歌尝试,我自己就找到了!)

不过,搜索引擎本身并不是我感兴趣的,而是分析描述以获得搜索引擎会理解的内容!通过示例电影,它的人类逻辑帮助我找到了标题。 (并且令人讨厌的是,这部电影不在荷兰出售。)人类逻辑总是一个要求,但它是关于分析用户输入,这是一个故事或描述的形式,可能有错误。

4 个答案:

答案 0 :(得分:1)

根据您自己的评论我可以说出来,谷歌是一种可以使用的技术。 ;-)但是,老实说,我认为任何搜索引擎或多或少都会这样做。

修改嘿,您删除了自己的评论,但我确实记得您曾将Google视为值得加分的

编辑+:好吧,你再次提到谷歌,但我不想删除我的第一次编辑。 ; - )

答案 1 :(得分:1)

纯粹的推测:在描述“埃及,印度,马战等”中,有一些微不足道的事情,比如说每个字数超过4个字母。和这种摘要数据库的模糊匹配工作?也许有一些正常化,例如。国王==领导==皇帝?

嗯......年轻人,女朋友,游泳池,母亲,婚礼是否让我们成为毕业生?嗯,我想可能会有少量细节“罗宾逊”。

答案 2 :(得分:1)

您应该查看document classification.

一些文档分类技术

答案 3 :(得分:1)

你可以使用imdb关键字搜索做很多有趣的事情:

http://akas.imdb.com/keyword/carnival/clown/murder/

您可以指定多个关键字,它会建议电影和更多关键字,这些关键字与您指定的关键字具有相似的上下文。

imdb中包含的数据是公开的,可用于非商业用途,可以downloaded作为文本文件。您可以从中构建数据库。