Question

我开始了解我的第一种编程语言，并且在尝试使用BS4和Python的练习时遇到了一些问题。

我试图抓取的网页位于以下链接的下方： https://www.aisc.org/certification/certified-company-search2/certified-company-search/?companyName=&country=select&city=&state=&canState=&zipCode=&radius=&certification=&certs=&pageSize=10&sort=aCompany

如果您点击列表中生成的任何链接，特定公司的网址将变为： https://www.aisc.org/certification/certified-company?id=3220678

我试图做的是抓取数据，这不是表格形式，并将其转换为带有公司名称的excel csv文件，然后将其中的每一行都与公司信息相关联。自己的专栏（即地址，电话，电子邮件等）。我已设法将公司名称和公司信息分开，但我无法将公司名称添加到列表中。我也无法从公司信息中解析标签。如果我使用row + = line.text，那么输出就是row = [＆＃39; a＆＃39;＆＃39; d＆＃39;，＆＃39; d＆＃39;＆＃39; r＆＃39 ;，＆＃39; E＆＃39;，......]

任何帮助都将受到赞赏，您可以在下面找到我的代码的输入和输出。

谢谢，

INPUT:
import requests
from bs4 import BeautifulSoup


page = requests.get("https://www.aisc.org/certification/certified-company?id=3220678")
print(page.status_code)
print(page.content)

soup = BeautifulSoup(page.content, 'lxml')
#print(soup.prettify())
#print(soup.find_all('ul', class_='vlist project-details-list'))
#print(soup.find_all('div', class_='unit size1of1'))

for header in soup.find_all('div', class_='unit size1of1'):
    for company in header.find_all('h1'):
        print(company.text)
for line in soup.find_all('ul', class_='vlist project-details-list'):
    row = []
    row+= line
print(row)



OUTPUT:
2-K Steel Products, Inc.
['\n', <li><strong>Address:</strong> 65 Murray Circle</li>, '\n', <li><strong>City:</strong> Ashville</li>, '\n', <li><strong>State:</strong> AL</li>, '\n', <li><strong>Zip Code:</strong>     35953</li>, '\n', <li><strong>Country:</strong> United States</li>, '\n', <li><strong>Contact:</strong> Mr. Kal Kimbrough </li>, '\n', <li><strong>Email Address:</strong> <a href="mailto:kkimbrough@2ksteel.com">kkimbrough@2ksteel.com</a></li>, '\n', <li><strong>Phone:</strong> (205) 594-5446</li>, '\n', <li><strong>Website:</strong> <a alt="2-K Steel Products, Inc." href="http://www.2ksteel.com" target="_blank">www.2ksteel.com</a></li>, '\n', <li><strong>Certification/Endorsement Types:</strong> BU</li>, '\n']

Answer 1

您要问的for循环有两个主要问题。

每次循环时，都会将row重新初始化为[]，即空列表。
您正在使用+=附加到列表中，但这样做并不符合您的预期。

相反，您需要在循环之前移动初始化，并使用append()：

row = []
for line in soup.find_all('ul', class_='vlist project-details-list'):
    row.append(line)

当您使用+=左侧的列表时，它希望右侧是序列。恰恰相反，字符串是一种序列，特别是字符。这就是您在运行代码时所看到的内容：您使用序列中的值extend列表。

Beautifulsoup和修改清单

1 个答案: