如何使用python

时间:2018-03-22 12:44:45

标签: android python machine-learning rss

我想使用我的笔记本电脑制作新闻聚合器android应用程序作为My project的本地服务器。我计划在我的后端使用apache,php,mysql。我决定将简单的机器学习技术应用于此应用程序因此,这个应用程序不仅可以收集文章,还可以按主题对其进行分类。

我已经实施了基本Scikit-learn Naive Bayes classifier。 我想知道如何在一段时间内从服务器上的多个站点自动抓取和存储RSS个Feed。我应该使用哪种库或技术来实现它?

1 个答案:

答案 0 :(得分:0)

我建议您使用Python上可用的更常见和使用的库来执行此任务,并使用Cron或Windows任务计划程序运行您的脚本(根据您将使用的操作系统)。

使用通用库可以让您在线搜索错误/教程时轻松获得支持,阅读优秀文档或查找许多页面。

我用于一般抓取和RSS的库是:

这是一个简单而简单的示例,它使用BeautifulSoup提取当前的以太坊值来抓取网站:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                       "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

print feed

以下是使用FeedParser的简单而简单的示例:

Embed Interop Types

玩得开心,快乐的黑客行为:)