应用错误收集

时间：2013-06-20 20:41:18

标签： java search-engine web-crawler

我打算构建一项服务，提供特定网站中特定网页的摘要内容。

因此，我没有依赖Google或Bing API（花钱），而是考虑搜索可以完成这项工作的网络抓取工具和搜索引擎。我只需要小规模，所以Apache Nutch对于项目来说太大了。

理想的解决方案是一个可嵌入的库，它可以获取网站列表，获取其内容并将其保存在数据库中以供以后搜索。有什么建议？

答案 0 :(得分：1)

您是否打算构建一个总结Web内容的服务？以下是一些可用于执行此操作的API：

我自己的一些：

最后2个基于这个关于如何创建自己的摘要生成器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/

答案 1 :(得分：1)

crawler和indexer通常是两个独立的组件。

对于抓取，您可以使用crawler4j查看https://code.google.com/p/crawler4j/。这很简单，但我认为它涵盖了您正在寻找的一些功能。您可能需要使用JDBC调用来保存结果，但它会为您进行爬行。
对于索引，您可以使用lucene查看http://lucene.apache.org/core/。

我还建议看一下西北大学，这种方式比我更好......所以这里有link给你