我是使用Python进行Web爬网的绝对初学者,对Python编程的了解很少。我只是想提取田纳西州律师的信息。在网页中,有多个链接,其中还有更多关于律师类别的链接,而这些链接中还有律师的详细信息。
我已经将各个城市的链接提取到一个列表中,并且还提取了每个城市链接中可用的各种律师。此外,我将每个律师的URL分别提取为不同的类别,并将它们存储在单独的集中。现在,我已经遍历了这些URL,以获取律师的详细信息,最后将它们写到.xls文件中。但是,当我运行我的代码时,该过程将继续执行并无限期地执行。我必须强制停止该过程,并且甚至在程序中指定的所需位置都没有创建.xls文件。该怎么办?可能的话。
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
final=[]
records=[]
with requests.Session() as s:
res = s.get('https://attorneys.superlawyers.com/tennessee/', headers = {'User-agent': 'Super Bot 9000'})
soup = bs(res.content, 'lxml')
cities = [item['href'] for item in soup.select('#browse_view a')]
for c in cities:
r=s.get(c)
s1=bs(r.content,'lxml')
categories = [item['href'] for item in s1.select('.three_browse_columns:nth-of-type(2) a')]
for c1 in categories:
r1=s.get(c1)
s2=bs(r1.content,'lxml')
lawyers = [item['href'].split('*')[1] if '*' in item['href'] else item['href'] for item in
s2.select('.indigo_text .directory_profile')]
for i in lawyers:
r2 = s.get(i)
s3 = bs(r2.content, 'lxml')
name = s3.select_one('#lawyer_name').text
category = s3.select_one('#attorney_profile_heading').text
firm = s3.select_one('#firm_profile_page').text
address = ' '.join([string for string in s3.select_one('#poap_postal_addr_block').stripped_strings][1:])
practices = ' '.join([item.text for item in s3.select('#pa_list li')])
records.append({'Names': name,'Category':category,'Address': address, 'Firm Name': firm,'Practice Area':practices})
df = pd.DataFrame(records,columns=['Names','Category','Address','Farm Name','Practice Areas'])
df=df.drop_duplicates()
df.to_excel(r'C:\Users\laptop\Desktop\lawyers.xls', sheet_name='MyData2', index = False, header=True)
”“我希望程序完成其执行并创建一个.xls文件,但是它仍在执行,甚至我也不知道完成它需要多长时间。无限循环是否有可能?发生了?如果可能的话建议。”
答案 0 :(得分:1)
我发现您要抓取的数据太多,使用BeautifulSoup将花费很多时间,我尝试抓取this website,即使将搜索分为四个不同的程序文件,它也花费了大约12个小时才能成功完成执行,我还尝试了您的代码,用于仅布伦特伍德城,大约花费了一个小时。我看不到您的代码中有无限循环!让它运行并保持耐心。
您的程序还没有创建任何.xml,因为它尚未到达代码的那一部分。
PS:我知道这应该是一条评论,但我目前没有足够的声望来做到这一点。希望这个答案能帮助您和我也赢得声誉,以便下次可以发表评论。