首先,我需要以编程方式从我的帖子的标题和描述中获取标签(与stackoverflow上的内容不同)。我不希望常用词出现在关键词中。有没有一种有效的方法呢?
获得好标签后,我想将它们保存在MySQL DB中。
现在,我如何有效使用这些自动创建的标签获取相关帖子?例如。这里做了什么。
答案 0 :(得分:4)
查找tf-idf。您正在寻找具有高tf-idf分数的术语。
答案 1 :(得分:2)
我建议不要使用这种方法。您可以使用它来建议标签,但自动标记将非常非常难以正确和准确地实现。
其中一个原因是因为计算机不理解语义。在这里提出任何问题并尝试这样做。它不会在95%的时间内起作用。
答案 2 :(得分:2)
我猜测在线API服务可能有所帮助。检查:
OpenCalais - 尝试在此处粘贴文章:http://viewer.opencalais.com/
或雅虎的术语提取API:http://developer.yahoo.com/search/content/V1/termExtraction.html
希望这有帮助!
答案 3 :(得分:1)
如果没有某种列表,我看不出这是怎么可能的..你的应用程序将如何知道使用哪些单词而不使用?我想你可以找到一个可以API进入的thesauraus并使用它来查找标签,它会变得相当复杂,如果你想要出于搜索引擎优化的原因,你可以让应用程序根据关键字列表查找单词,例如您从谷歌关键字工具获得的..
至于如何做到这一点,我一直使用PHP并认为它非常适合构建Web应用程序但是对于这类事情(处理大量文本数据,正则表达式等)我往往会遇到问题在PHP中,也许只是我,但我更喜欢使用perl
答案 4 :(得分:0)
Headup也可以帮助完成这项任务(就像Open Calais一样)。你可以在这里查看,看看它是否适合你:
http://labs.headup.com/Services/RealTime/API/EntitiyExtraction/Playground.aspx
如果需要,还有一个API。
(免责声明:我是开发人员@SemantiNet并致力于此产品...我们很乐意提供帮助。)
祝你好运!