Java - 从网页获取文本

时间:2011-05-06 01:46:18

标签: java web-applications web-scraping

我正在开始一个新项目,这是我从未尝试过的Java项目,我一直在研究。我的研究并没有比我开始时更进一步。

基本上我的项目会这样做:

  • 搜索网站并获取 相应的数据(基本上搜索 它的搜索引擎基于查询 用户输入,然后返回 相应的结果)

  • 用户点击其中一个结果 然后程序将显示某些
    值(值将在上面 结果的网页)

到目前为止,我所知道的如何做到这一点的是Web Scraping。我找不到任何例子,所以我仍然对这个问题一无所知。

这真的有可能吗?我将使用Java与Android SDK。我有点想法,但我的Java知识与网页等没有任何关系。

先谢谢了, 布兰登

2 个答案:

答案 0 :(得分:1)

Nutch是一个很棒的工具,但对于一个小项目来说可能有点过分。如果您正在寻找真正快速,肮脏且易于理解的内容,请查看crawler

在此处查看使用示例: http://java.net/projects/crawler/sources/svn/content/trunk/src/examples/com/torunski/crawler/examples/ExampleDownloadWithHTMLParser.java?rev=429

您可以将其放入您的项目并在10分钟内抓取

答案 1 :(得分:0)

当然有可能。可能最好的库是Apache Nutch。它基于强大的库堆栈,如Lucene,非常成熟。查看他们的教程,您可能会找到快速poc的所有必要信息。