我打算构建一项服务,提供特定网站中特定网页的摘要内容。
因此,我没有依赖Google或Bing API(花钱),而是考虑搜索可以完成这项工作的网络抓取工具和搜索引擎。我只需要小规模,所以Apache Nutch对于项目来说太大了。
理想的解决方案是一个可嵌入的库,它可以获取网站列表,获取其内容并将其保存在数据库中以供以后搜索。有什么建议?
答案 0 :(得分:1)
您是否打算构建一个总结Web内容的服务?以下是一些可用于执行此操作的API:
我自己的一些:
最后2个基于这个关于如何创建自己的摘要生成器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/
答案 1 :(得分:1)
crawler和indexer通常是两个独立的组件。
我还建议看一下西北大学,这种方式比我更好......所以这里有link给你