我需要在项目中使用,如果可能的话,在java中使用开源rss爬虫和提要阅读器(或两个不同的工具)。 我见过很多不同的工具,你知道哪一个是最好的。
先谢谢
答案 0 :(得分:1)
如果您想要完整的搜索引擎 - 请查看Apache Nutch。
如果您只是想了解网络抓取的原则 - 请阅读"Programming collective intelligence"中非常简单的介绍以及"Introduction to information retrieval"的更高级介绍。
如果您需要解析rss和atom feed - 请使用Rome。
另请查看任何刮刀,例如Web-Harvest。