我正在尝试使用urllib.request.urlopen从页面下载Pdfs,但它返回错误:' list'对象没有属性'超时'
def get_hansard_data(page_url):
#Read base_url into Beautiful soup Object
html = urllib.request.urlopen(page_url).read()
soup = BeautifulSoup(html, "html.parser")
#grab <div class="itemContainer"> that hold links and dates to all hansard pdfs
hansard_menu = soup.find_all("div","itemContainer")
#Get all hansards
#write to a tsv file
with open("hansards.tsv","a") as f:
fieldnames = ("date","hansard_url")
output = csv.writer(f, delimiter="\t")
for div in hansard_menu:
hansard_link = [HANSARD_URL + div.a["href"]]
hansard_date = div.find("h3", "catItemTitle").string
#download
with urllib.request.urlopen(hansard_link) as response:
data = response.read()
r = open("/Users/Parliament Hansards/"+hansard_date +".txt","wb")
r.write(data)
r.close()
print(hansard_date)
print(hansard_link)
output.writerow([hansard_date,hansard_link])
print ("Done Writing File")
请帮忙。
答案 0 :(得分:0)
有点晚,但可能仍然对其他人有帮助(如果不是主题启动器)。我通过解决同样的问题找到了解决方案。
问题在于page_url
(在您的情况下)是一个列表,而不是一个字符串。其原因可能是page_url
来自argparse.parse_args()
(至少在我的情况下是这样)。
执行page_url[0]
应该有效,但在def get_hansard_data(page_url)
函数内执行此操作并不好。如果类型不匹配,最好检查参数的类型并向函数调用者返回适当的错误。
可以通过调用type(page_url)
并比较结果来检查参数的类型,例如:typen("") == type(page_url)
。我确信可能有更优雅的方式来做到这一点,但这超出了这个特定问题的范围。