如何从网站上抓取所有文章(包括可能通过RSS阅读器)?

时间:2017-06-03 17:04:33

标签: web-scraping rss-reader

请原谅我的无知,我是一名普通的计算机用户,对编程没有任何了解。无论如何,我的问题是:

有没有办法在特定的科技新闻网站上发布所有文章,以获取(即可能在编程术语中“刮”)?我希望输出(标题和文章以及可能的日期和作者)理想地以纯文本形式呈现,以便我可以在一个名为AntConc的语料库工具中使用它作为我个人和非盈利研究的一部分。

事实上,如果我可以通过我的RSS提要阅读器(feedly或inoreader)为很多网站做这件事会非常方便,但这可能要求太多,所以'逐一'抓取会也好。

像Portia这样的东西可以解决这个问题吗?请记住,我对python等一无所知,我需要任何方法,非常,非常简单和直接。

谢谢

1 个答案:

答案 0 :(得分:0)

是的,如果他们支持该功能,可以从其他网站加载这些数据。在java / android中,我们只需创建一个简单的应用程序,将数据作为Json加载,然后使用适配器将其解析为listviews,imageviews等视图,并可能存储在缓存中。

但是,这是一部关于Udemy的优秀免费课程,您可以快速查看它的梦想解决方案

https://www.udemy.com/how-to-make-an-app-build-an-app-business-rss-feed-news-apps/

或者如果你有一个自动的,高质量的RSS阅读器应用程序高达19美元,没有编码,那么你可以退房 http://www.shoutem.com/app/rss-feed

质量低,简单但免费 http://www.appsgeyser.com/create-rss-app/

但总是最好找一点时间制作应用程序或使用开发人员的服务