我正在寻找一种方法来获取网页的本质或最重要的方面?如果我提供URL,是否有任何外部服务可以实现此目的?我不是在寻找像服务一样的snap.com,因为它提供了一个快照。
我可能愿意自己实施这样的系统。一开始我不想付出过多的努力,而是希望能够得到一些基本的结果。对于我如何解决这个问题有什么想法吗?
答案 0 :(得分:1)
您可以尝试Yahoo's Term extraction service
2012年5月2日更新
雅虎发布了一个新的Content Analysis Web service,它将取代Term提取服务。它可以通过语法上的甜蜜YQL调用,如下所示
select * from contentanalysis.analyze where url='http://www.cnn.com/2011/11/11/world/europe/greece-main/index.html';
还有AlchemyAPI提供可以满足您目的的服务。
答案 1 :(得分:0)
通过代码段,你的意思是一个引用,总结你要链接的整个页面?
因此,如果snap.com不是一种幻想,整个页面怎么样?为了冗长的缘故?你可以尝试BackupURL,如果你想要一个网站整个页面的缓存而不是它的一部分的快照。