我们正在考虑使用现有的内容分析服务API来返回文章中的给定术语相关性分数。
找到了一些非常好的内容分析服务,例如:
但是,我们正在寻找一种方法来返回给定的术语相关性分数
例如,
我们有一个词汇 - 主题包含“成本”,“政府”
和页面http://www.test.dev/article/1.html
然后我们想使用内容分析服务来检查文章
中主题的相关性因此我们可以决定从我们自己的词汇表中自动标记该文章。
感谢您的帮助。
答案 0 :(得分:3)
您提到的Yahoo Content Analysis service对于识别相关链接和其他元数据非常有用。如果您专门寻找词汇术语,可以尝试Yahoo Term Extraction service。它接受源文本和查询术语。
以下是YQL控制台中显示的演示查询:
样本结果:
"results": {
"Result": [
"Italian sculptors",
"the Virgin Mary",
"painters",
"the renaissance"
]
}
一个很大的警告:雅虎已经表示,Term Extraction服务将在某个时候关闭。相反,他们建议使用Content Analysis服务进行新开发。 (Source)
如果您想在相同的上下文中尝试该服务,还有OpenCalais的YQL表。