获取网页并保存在数据库中?

时间:2010-07-28 07:22:00

标签: java mysql

如何获取HTML页面并将其保存到JAVA中的数据库?有没有简单的方法可以做到这一点?

2 个答案:

答案 0 :(得分:2)

使用URL类:

,通过http接收文件非常简单
String rawHtml = IOUtils.toString(new URL("http://yahoo.com").openStream());

IOUtils取自org.apache.commons.io,toString方法将整个输入流读入一个String。 不幸的是,使用java.net.URL除了网站的地址之外你无法控制任何东西(cookies,标题信息......): - / 就个人而言,我尽可能使用这种方法,因为HttpClient的API太复杂(太多LOC),无法简单地检索网站的源代码。

答案 1 :(得分:1)

不确定您的确切要求。

对于简单的事情,您可以使用HttpClient

对于更复杂的内容,您可以使用Nutch它也会进行抓取,索引和搜索。