FeedPaser的脚本定期收集RSS,然后在数据库中存储数据

时间:2017-08-17 12:30:36

标签: python rss feedparser

我正在学习Python。为了自学,我决定尝试构建一个收集RSS提要并将输出,标题,URL和摘要存储在数据库中的工具(我稍后将构建一个访问数据并刮取页面的工具)

到目前为止,我已经创建了一个本地版本,它收集RSS源列表中的内容并将其放入pandas数据帧中。

我接下来要了解的是,我需要使用哪些工具将此本地脚本转换为每个运行一次的脚本,例如30分钟,并将新找到的数据添加到数据库中。

任何方向都会有所帮助。

import feedparser
import pandas as pd

rawrss = [
    'http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml',
    'https://www.yahoo.com/news/rss/',
    'http://www.huffingtonpost.co.uk/feeds/index.xml',
    'http://feeds.feedburner.com/TechCrunch/',
    ]

posts = []
for url in rawrss:
    feed = feedparser.parse(url)
    for post in feed.entries:
        posts.append((post.title, post.link, post.summary))
df = pd.DataFrame(posts, columns=['title', 'link', 'summary']) # pass data to init

df

0 个答案:

没有答案