我仍然是Python的新手,我正在为我的学校做作业。
我需要编写代码来从网站中提取所有html,然后将其保存到csv
文件中。
我相信我不知何故需要将链接转换为列表然后编写列表,但我不确定该怎么做。
这是我到目前为止所做的:
import bs4
import requests
from bs4 import BeautifulSoup, SoupStrainer
import csv
search_link = "https://www.census.gov/programs-surveys/popest.html"
r = requests.get(search_link)
raw_html = r.text
soup = BeautifulSoup(raw_html, 'html.parser')
all_links = soup.find_all("a")
rem_dup = set()
for link in all_links:
hrefs = str(link.get("href"))
if hrefs.startswith('#http'):
rem_dup.add(hrefs[1:])
elif hrefs.endswith('.gov'):
rem_dup.add(hrefs + '/')
elif hrefs.startswith('/'):
rem_dup.add('https://www.census.gov' + hrefs)
else:
rem_dup.add(hrefs)
filename = "Page_Links.csv"
f = open(filename, "w+")
f.write("LINKS\n")
f.write(all_links)
f.close()
答案 0 :(得分:0)
all_links
是一套或来自Beautiful Soup的结果。 rem_dup
是存储所有href的地方,因此我认为这是您要写入文件的内容,因此只需f.write(rem_dup)
。
进一步说明:rem_dup
实际上是一套。如果您希望它成为列表,请说出rem_dup = list()
而不是set()
。 append
通常与列表一起使用,因此您使用正确的语法/.
答案 1 :(得分:0)
write()
函数需要一个字符缓冲区对象作为参数。 all_links
基本上保存所有超链接的ResultSet。所以,而不是 -
f.write(all_links)
您应该在set()
变量定义的rem_dup
中编写值(因为它们包含以字符串格式表示的实际超链接) -
for hyperlink in rem_dup:
f.write(hyperlink + "\n")