我需要为给定的单词实现一种关键词的度量。这意味着这个词有多重要,例如“示例”一词不如“核”这个词重要。我试图实现的建议措施是一个简单的措施,它考虑了该词的维基文章的出现总数以及它在链接中出现的次数
((link appearance)/(total appearances))
我可以使用
检索'term'的总出现次数$url=http://en.wikipedia.org/w/api.php?&action=query&list=search&srlimit=50&srredirects&srprop=snippet&srnamespace=0&srsearch=term;
$page=unserialize(file_get_contents($url));
$totalhits=$page["query"]["searchinfo"]["totalhits"];
我现在需要的是一种检索单词出现在链接中的数字的方法。 Thnx提前。
答案 0 :(得分:0)
我认为通过API无法合理地访问您所寻找的内容。相反,您应该下载dump of all articles(特别是pages-articles
文件),然后通过该文件获取所需信息。