下面是我在论坛上找到的脚本,它几乎正是我需要的,除了我需要阅读30个不同的URL并将它们全部打印在一起。我尝试了几个选项,但脚本只是打破了。如何合并所有30个网址,解析并打印出来。
如果你可以帮助我,我会非常感激,不过。
import sys
import string
from urllib2 import urlopen
import xml.dom.minidom
var_xml = urlopen("http://www.test.com/bla/bla.xml")
var_all = xml.dom.minidom.parse(var_xml)
def extract_content(var_all, var_tag, var_loop_count):
return var_all.firstChild.getElementsByTagName(var_tag)[var_loop_count].firstChild.data
var_loop_count = 0
var_item = " "
while len(var_item) > 0:
var_title = extract_content(var_all, "title", var_loop_count)
var_date = extract_content(var_all, "pubDate", var_loop_count)
print "Title: ", var_title
print "Published Date: ", var_date
print " "
var_loop_count += 1
try:
var_item = var_all.firstChild.getElementsByTagName("item")[var_loop_count].firstChild.data
except:
var_item = ""
答案 0 :(得分:0)
如果这是标准RSS,我建议使用http://www.feedparser.org/;提取所有项目很简单。
答案 1 :(得分:0)
您正在覆盖var_item,var_title,var_date。每个循环。列出这些项目,并将每个var_item,var_title,var_date放入列表中。最后,打印出你的清单。