我如何编写可以从Google新闻中获取文章并将其下载到我的计算机上的程序?
我发现Google新闻已经内置了RSS功能,但我需要实际下载整篇文章(文字和所有内容),而不仅仅是标题。
最好,我想将这些文章下载为PDF或HTML文件,但对于初学者来说,只需获取一些网址就太棒了。
这里有一些关于从谷歌新闻中获取文章的问题,但到目前为止我发现的任何内容都没什么特别有用的。任何帮助都会受到大力赞赏。
谢谢!
答案 0 :(得分:1)
除了法律问题,这是可能的,请参阅Apache HttpComponents。以下是如何使用它的示例(taken from here):
DefaultHttpClient httpclient = new DefaultHttpClient();
if ( useProxy == true ) {
HttpHost proxy = new HttpHost(proxyStr, 80, "http");
httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
}
HttpGet httpget = new HttpGet(urlStr);
httpget.addHeader("Authorization", "Basic " + encodedAuth);
HttpResponse response = httpclient.execute(httpget);
但在做这样的事情之前,请注意Google TOS。