我正在开发一个脚本,该脚本从我所属的特定meetup.com组的消息存档中提取消息 - http://www.meetup.com/opencoffee/messages/archive/
这个想法是动态地将这些添加到wordpress网站,并允许人们搜索消息,自动标记消息等。
我遇到的问题是如何最好地自动分类这些消息。我欢迎任何关于如何最好地解决这个问题的想法和想法,以及最有效的编程方法。
选项1
通过使用美味的API找到按主题领域(如财务,技术,业务等)的标签来源,并按主题查找相关标签: -
http://delicious.com/tag/finance
http://delicious.com/tag/technology
如果邮件包含这些标签,则邮件将分配给相应的类别。
我相信这可行,但不确定扫描这些标记的消息的最有效方法。
选项2
查找代表我需要的类别的网站,例如ft.com,财务经济学家等,技术创新等,然后确定人们使用哪些标签来标记这些网站,并默认确定这些标签人们如何与这些网站及其内容堆栈相关联。
选项3
将消息网址传递给http://semanticproxy.com/(路透社加莱项目的一部分)或使用Open Calais API。我尝试过但没有太大的成功,因为内容的可变深度并不总是足以返回有意义的分类法。
以下是我通过calais api解析的示例消息: -
原始消息
http://www.meetup.com/opencoffee/messages/6045615/
加来结果
http://www.mashinteractive.com/opencoffee/calais.php
概要
所以就是这样。我欢迎任何关于如何最好地接受选项1和2的消息扫描的方法和提示的想法和想法。
仅供参考,迄今为止有大约1,700条消息,我猜我可能有10个类别,每个类别由20或30个标签定义。
如果有人想帮助开发Wordpress插件或类来做到这一点,我会非常乐意让你加入。请记住,我不是程序员,我只是修补边缘,假装我是一个。
提前致谢
乔纳森 CEO
群众人
答案 0 :(得分:1)
您可能需要查看Zemanta,其中包含用于自动标记内容的工具和插件(包括Wordpress),还可以查看Common Tag,这是用于表达标记的词汇表内容使用RDFa,这是一种目前由某些搜索引擎索引的语义Web标准。