Question

我仍然是Python的新手，我正在为我的学校做作业。

我需要编写代码来从网站中提取所有html，然后将其保存到csv文件中。

我相信我不知何故需要将链接转换为列表然后编写列表，但我不确定该怎么做。

这是我到目前为止所做的：

import bs4
import requests
from bs4 import BeautifulSoup, SoupStrainer
import csv

search_link = "https://www.census.gov/programs-surveys/popest.html"
r = requests.get(search_link)
raw_html = r.text
soup = BeautifulSoup(raw_html, 'html.parser')
all_links = soup.find_all("a")

rem_dup = set()
for link in all_links:
    hrefs = str(link.get("href"))
    if hrefs.startswith('#http'):
        rem_dup.add(hrefs[1:])
    elif hrefs.endswith('.gov'):
        rem_dup.add(hrefs + '/')
    elif hrefs.startswith('/'):
        rem_dup.add('https://www.census.gov' + hrefs)
    else:
        rem_dup.add(hrefs)

filename = "Page_Links.csv"
f = open(filename, "w+")
f.write("LINKS\n")
f.write(all_links)
f.close()

Answer 1

all_links是一套或来自Beautiful Soup的结果。 rem_dup是存储所有href的地方，因此我认为这是您要写入文件的内容，因此只需f.write(rem_dup)。

进一步说明：rem_dup实际上是一套。如果您希望它成为列表，请说出rem_dup = list()而不是set()。 append通常与列表一起使用，因此您使用正确的语法/.

Answer 2

write()函数需要一个字符缓冲区对象作为参数。 all_links基本上保存所有超链接的ResultSet。所以，而不是 -

f.write(all_links)

您应该在set()变量定义的rem_dup中编写值（因为它们包含以字符串格式表示的实际超链接） -

for hyperlink in rem_dup:
    f.write(hyperlink + "\n")

Python将web数据写入csv

2 个答案: