从Google新闻中获取文章并在Java中下载它们

时间:2014-09-12 02:44:29

标签: java web google-news

我如何编写可以从Google新闻中获取文章并将其下载到我的计算机上的程序?

我发现Google新闻已经内置了RSS功能,但我需要实际下载整篇文章(文字和所有内容),而不仅仅是标题。

最好,我想将这些文章下载为PDF或HTML文件,但对于初学者来说,只需获取一些网址就太棒了。

这里有一些关于从谷歌新闻中获取文章的问题,但到目前为止我发现的任何内容都没什么特别有用的。任何帮助都会受到大力赞赏。

谢谢!

1 个答案:

答案 0 :(得分:1)

除了法律问题,这是可能的,请参阅Apache HttpComponents。以下是如何使用它的示例(taken from here):

DefaultHttpClient httpclient = new DefaultHttpClient();
if ( useProxy == true ) {
    HttpHost proxy = new HttpHost(proxyStr, 80, "http");
    httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
}

HttpGet httpget = new HttpGet(urlStr);
httpget.addHeader("Authorization", "Basic " + encodedAuth);

HttpResponse response = httpclient.execute(httpget);

但在做这样的事情之前,请注意Google TOS。