在文本文件中下载目标链接html(Beautiful Soup - Python3)

时间:2016-11-06 03:00:12

标签: python beautifulsoup web-crawler

我是python的新手并且正在研究Web爬行。

我正在尝试在文本页面中下载单个目标链接 到目前为止,我成功地提取了我需要的所有目标URL,但不知道如何在文本文件中下载所有目标HTML文本。

有人可以给我一个大致的想法。

url = ""
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
    print(t.attrs['href'])

1 个答案:

答案 0 :(得分:0)

在for循环中,使用请求lib访问链接URL并将内容写入文件。类似的东西:

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能想要更改每个链接的文件名。