Question

我正在尝试使用urllib.request.urlopen从页面下载Pdfs，但它返回错误：＆＃39; list＆＃39;对象没有属性＆＃39;超时＆＃39;

def get_hansard_data(page_url):
    #Read base_url into Beautiful soup Object
    html = urllib.request.urlopen(page_url).read()
    soup = BeautifulSoup(html, "html.parser")
    #grab <div class="itemContainer"> that hold links and dates to all hansard pdfs
    hansard_menu = soup.find_all("div","itemContainer")

    #Get all hansards
    #write to a tsv file
    with open("hansards.tsv","a") as f:
        fieldnames = ("date","hansard_url")
        output = csv.writer(f, delimiter="\t")

        for div in hansard_menu:
            hansard_link = [HANSARD_URL + div.a["href"]]
            hansard_date = div.find("h3", "catItemTitle").string

            #download

            with urllib.request.urlopen(hansard_link) as response:
                data = response.read()
                r = open("/Users/Parliament Hansards/"+hansard_date +".txt","wb")
                r.write(data)
                r.close()

            print(hansard_date)
            print(hansard_link)
            output.writerow([hansard_date,hansard_link])
        print ("Done Writing File")

请帮忙。

Answer 1

有点晚，但可能仍然对其他人有帮助（如果不是主题启动器）。我通过解决同样的问题找到了解决方案。

问题在于page_url（在您的情况下）是一个列表，而不是一个字符串。其原因可能是page_url来自argparse.parse_args()（至少在我的情况下是这样）。执行page_url[0]应该有效，但在def get_hansard_data(page_url)函数内执行此操作并不好。如果类型不匹配，最好检查参数的类型并向函数调用者返回适当的错误。

可以通过调用type(page_url)并比较结果来检查参数的类型，例如：typen("") == type(page_url)。我确信可能有更优雅的方式来做到这一点，但这超出了这个特定问题的范围。

＆＃39;列表＆＃39;对象没有属性＆＃39;超时＆＃39;

1 个答案: