我想使用我的笔记本电脑制作新闻聚合器android
应用程序作为My project的本地服务器。我计划在我的后端使用apache,php,mysql。我决定将简单的机器学习技术应用于此应用程序因此,这个应用程序不仅可以收集文章,还可以按主题对其进行分类。
我已经实施了基本Scikit-learn
Naive Bayes classifier
。
我想知道如何在一段时间内从服务器上的多个站点自动抓取和存储RSS
个Feed。我应该使用哪种库或技术来实现它?
答案 0 :(得分:0)
我建议您使用Python上可用的更常见和使用的库来执行此任务,并使用Cron或Windows任务计划程序运行您的脚本(根据您将使用的操作系统)。
使用通用库可以让您在线搜索错误/教程时轻松获得支持,阅读优秀文档或查找许多页面。
我用于一般抓取和RSS的库是:
这是一个简单而简单的示例,它使用BeautifulSoup提取当前的以太坊值来抓取网站:
import feedparser
python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
"RecentChanges?action=rss_rc"
feed = feedparser.parse( python_wiki_rss_url )
print feed
以下是使用FeedParser的简单而简单的示例:
Embed Interop Types
玩得开心,快乐的黑客行为:)