以编程方式从标题,描述和相关项中获取标签(关键字)

时间:2010-08-15 01:52:53

标签: php tags

首先,我需要以编程方式从我的帖子的标题和描述中获取标签(与stackoverflow上的内容不同)。我不希望常用词出现在关键词中。有没有一种有效的方法呢?

获得好标签后,我想将它们保存在MySQL DB中。

现在,我如何有效使用这些自动创建的标签获取相关帖子?例如。这里做了什么。

5 个答案:

答案 0 :(得分:4)

查找tf-idf。您正在寻找具有高tf-idf分数的术语。

答案 1 :(得分:2)

我建议不要使用这种方法。您可以使用它来建议标签,但自动标记将非常非常难以正确和准确地实现。

其中一个原因是因为计算机不理解语义。在这里提出任何问题并尝试这样做。它不会在95%的时间内起作用。

答案 2 :(得分:2)

我猜测在线API服务可能有所帮助。检查:

OpenCalais - 尝试在此处粘贴文章:http://viewer.opencalais.com/

或雅虎的术语提取API:http://developer.yahoo.com/search/content/V1/termExtraction.html

希望这有帮助!

答案 3 :(得分:1)

如果没有某种列表,我看不出这是怎么可能的..你的应用程序将如何知道使用哪些单词而不使用?我想你可以找到一个可以API进入的thesauraus并使用它来查找标签,它会变得相当复杂,如果你想要出于搜索引擎优化的原因,你可以让应用程序根据关键字列表查找单词,例如您从谷歌关键字工具获得的..

至于如何做到这一点,我一直使用PHP并认为它非常适合构建Web应用程序但是对于这类事情(处理大量文本数据,正则表达式等)我往往会遇到问题在PHP中,也许只是我,但我更喜欢使用perl

答案 4 :(得分:0)

Headup也可以帮助完成这项任务(就像Open Calais一样)。你可以在这里查看,看看它是否适合你:

http://labs.headup.com/Services/RealTime/API/EntitiyExtraction/Playground.aspx

如果需要,还有一个API。

(免责声明:我是开发人员@SemantiNet并致力于此产品...我们很乐意提供帮助。)

祝你好运!