内容的自动分类

时间:2009-05-04 14:14:40

标签: tags tagging semantics semantic-web taxonomy

我正在开发一个脚本,该脚本从我所属的特定meetup.com组的消息存档中提取消息 - http://www.meetup.com/opencoffee/messages/archive/

这个想法是动态地将这些添加到wordpress网站,并允许人们搜索消息,自动标记消息等。

我遇到的问题是如何最好地自动分类这些消息。我欢迎任何关于如何最好地解决这个问题的想法和想法,以及最有效的编程方法。

选项1

通过使用美味的API找到按主题领域(如财务,技术,业务等)的标签来源,并按主题查找相关标签: -

http://delicious.com/tag/finance

http://delicious.com/tag/technology

如果邮件包含这些标签,则邮件将分配给相应的类别。

我相信这可行,但不确定扫描这些标记的消息的最有效方法。

选项2

查找代表我需要的类别的网站,例如ft.com,财务经济学家等,技术创新等,然后确定人们使用哪些标签来标记这些网站,并默认确定这些标签人们如何与这些网站及其内容堆栈相关联。

选项3

将消息网址传递给http://semanticproxy.com/(路透社加莱项目的一部分)或使用Open Calais API。我尝试过但没有太大的成功,因为内容的可变深度并不总是足以返回有意义的分类法。

以下是我通过calais api解析的示例消息: -

原始消息

http://www.meetup.com/opencoffee/messages/6045615/

加来结果

http://www.mashinteractive.com/opencoffee/calais.php

概要

所以就是这样。我欢迎任何关于如何最好地接受选项1和2的消息扫描的方法和提示的想法和想法。

仅供参考,迄今为止有大约1,700条消息,我猜我可能有10个类别,每个类别由20或30个标签定义。

如果有人想帮助开发Wordpress插件或类来做到这一点,我会非常乐意让你加入。请记住,我不是程序员,我只是修补边缘,假装我是一个。

提前致谢

乔纳森 CEO

群众人

1 个答案:

答案 0 :(得分:1)

您可能需要查看Zemanta,其中包含用于自动标记内容的工具和插件(包括Wordpress),还可以查看Common Tag,这是用于表达标记的词汇表内容使用RDFa,这是一种目前由某些搜索引擎索引的语义Web标准。