我正在学习Python。为了自学,我决定尝试构建一个收集RSS提要并将输出,标题,URL和摘要存储在数据库中的工具(我稍后将构建一个访问数据并刮取页面的工具)
到目前为止,我已经创建了一个本地版本,它收集RSS源列表中的内容并将其放入pandas数据帧中。
我接下来要了解的是,我需要使用哪些工具将此本地脚本转换为每个运行一次的脚本,例如30分钟,并将新找到的数据添加到数据库中。
任何方向都会有所帮助。
import feedparser
import pandas as pd
rawrss = [
'http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml',
'https://www.yahoo.com/news/rss/',
'http://www.huffingtonpost.co.uk/feeds/index.xml',
'http://feeds.feedburner.com/TechCrunch/',
]
posts = []
for url in rawrss:
feed = feedparser.parse(url)
for post in feed.entries:
posts.append((post.title, post.link, post.summary))
df = pd.DataFrame(posts, columns=['title', 'link', 'summary']) # pass data to init
df