我有一个RSS / ATOM订阅源列表(近500个)来解析和获取链接。
我正在使用python feedparser libary来解析url。为了解析url列表,我想到了在python中使用线程库。
我的代码看起来像这样
import threading
import feedparser
class PullFeeds:
def _init__(self):
self.data = open('urls.txt', 'r')
def pullfeed(self):
threads = []
for url in self.data:
t = RssParser(url)
threads.append(t)
for thread in threads:
thread.start()
for thread in threads:
thread.join()
class RssParser(threading.Thread):
def __init__(self, url):
threading.Thread.__init__(self)
self.url = url
def run(self):
print "Starting: ", self.name
rss_data = feedparser.parse(self.url)
for entry in rss_data.get('entries'):
print entry.get('link')
print "Exiting: ", self.name
pf = PullFeeds()
pf.pullfeed()
问题是,当我运行此脚本时,Feedparser会返回一个空列表。但是,如果没有线程化的feedparser打印出从提供的URL解析的链接列表。
我该如何解决这个问题?
答案 0 :(得分:0)
要查看问题是否与多线程有关,您可以尝试使用多个进程:
#!/usr/bin/env python
####from multiprocessing.dummy import Pool # use threads
from multiprocessing import Pool # use processes
from multiprocessing import freeze_support
import feedparser
def fetch_rss(url):
try:
data = feedparser.parse(url)
except Exception as e:
return url, None, str(e)
else:
e = data.get('bozo_exception')
return url, data['entries'], str(e) if e else None
if __name__=="__main__":
freeze_support()
with open('urls.txt') as file:
urls = (line.strip() for line in file if line.strip())
pool = Pool(20) # no more than 20 concurrent downloads
for url, items, error in pool.imap_unordered(fetch_rss, urls):
if error is None:
print(url, len(items))
else:
print(url, error)
答案 1 :(得分:0)
问题在于Vagrant。我在我的一个流浪机里面运行脚本。流浪盒中的相同脚本运行良好。
这需要报告。我还不确定在哪里报告此错误,无论是Vagrant还是Python线程或Feedparser库都存在问题。