如何以编程方式为URL数据库生成相关标签?

时间:2011-01-17 05:28:46

标签: python nlp keyword google-adwords

我在python中编写RSS阅读器作为学习练习,我真的希望能够使用关键词标记单个条目以进行搜索。遗憾的是,大多数真实世界的Feed都不包含关键字元数据。我目前在我的测试数据库中有大约60,000个条目来自大约600个提要,因此手动标记不会有效。到目前为止,我只能找到两种解决方案:

1:使用Natural Language Toolkit提取关键字:

  • 优点:灵活;没有依赖外部服务;
  • 缺点:只能索引文章摘要,而不是文章;非平凡:编写高质量的关键字提取工具本身就是一个项目;

2:使用Google Adwords API从文章网址中获取关键字建议:

  • 优点:超高品质的关键词;基于整篇文章;易于使用;
  • 缺点:不自由(?);查询率限制未知;我很害怕我的帐户被禁止,而且无法为我的商业网站投放adwords广告系列;

任何人都可以提供任何建议吗?我担心让我的adwords帐号被禁止是没有根据的吗?

2 个答案:

答案 0 :(得分:2)

根据您的具体需求,您可以考虑使用许多免费和商业文本注释工具/服务,列于:

Is there a better tool than OpenCalais?

其中一些提供实体,一些提供关键字相关性的衡量标准,另一些提供主题标签。

答案 1 :(得分:1)

您可以使用 delicious suggested tags API

如何通过python http://www.michael-noll.com/projects/delicious-python-api/

使用api的示例

另一种选择是 Open Calais