内容分析 - 给定术语相关性分数

时间:2012-11-04 00:43:49

标签: php terminology yahoo-api opencalais

我们正在考虑使用现有的内容分析服务API来返回文章中的给定术语相关性分数。

找到了一些非常好的内容分析服务,例如:

  1. Yahoo内容分析服务
  2. OpenCalais ...
  3. 但是,我们正在寻找一种方法来返回给定的术语相关性分数

    例如,

    我们有一个词汇 - 主题包含“成本”,“政府”

    和页面http://www.test.dev/article/1.html

    然后我们想使用内容分析服务来检查文章

    中主题的相关性

    因此我们可以决定从我们自己的词汇表中自动标记该文章。

    感谢您的帮助。

1 个答案:

答案 0 :(得分:3)

您提到的Yahoo Content Analysis service对于识别相关链接和其他元数据非常有用。如果您专门寻找词汇术语,可以尝试Yahoo Term Extraction service。它接受源文本和查询术语。

以下是YQL控制台中显示的演示查询:

select * from search.termextract where context="Italian sculptors and painters of the renaissance favored the Virgin Mary for inspiration" and query="madonna"

样本结果:

"results": {
 "Result": [
  "Italian sculptors",
  "the Virgin Mary",
  "painters",
  "the renaissance"
 ]
}

一个很大的警告:雅虎已经表示,Term Extraction服务将在某个时候关闭。相反,他们建议使用Content Analysis服务进行新开发。 (Source

如果您想在相同的上下文中尝试该服务,还有OpenCalais的YQL表。