我是python的新手并且正在研究Web爬行。
我正在尝试在文本页面中下载单个目标链接。 到目前为止,我成功地提取了我需要的所有目标URL,但不知道如何在多个文件中下载所有目标HTML文本。下面的代码只是在多个文件中显示相同的文章。
是的,请有人帮帮我。url = ""
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t1 in link1:
print(t1.attrs['href'])
link_data = requests.get(t.attrs['href']).text
import io
for i in link_data:
link_data
with io.open("file_" + str(i) + ".txt", 'w', encoding='utf-8') as f:
f.write(str(i)+link_data)
答案 0 :(得分:0)
以代码的样式,从事物发生变化的时候开始:
for i, t1 in enumerate(link1): # Get indices and data in one go
link_data = requests.get(t1.attrs['href']).text
with io.open("file_" + str(i) + ".txt", 'w', encoding='utf-8') as f:
f.write(link_data) # no str(i) because that would mess with the HTML