Question

我是使用Python进行Web爬网的绝对初学者，对Python编程的了解很少。我只是想提取田纳西州律师的信息。在网页中，有多个链接，其中还有更多关于律师类别的链接，而这些链接中还有律师的详细信息。

我已经将各个城市的链接提取到一个列表中，并且还提取了每个城市链接中可用的各种律师。此外，我将每个律师的URL分别提取为不同的类别，并将它们存储在单独的集中。现在，我已经遍历了这些URL，以获取律师的详细信息，最后将它们写到.xls文件中。但是，当我运行我的代码时，该过程将继续执行并无限期地执行。我必须强制停止该过程，并且甚至在程序中指定的所需位置都没有创建.xls文件。该怎么办？可能的话。

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

final=[]
records=[]
with requests.Session() as s:
    res = s.get('https://attorneys.superlawyers.com/tennessee/', headers = {'User-agent': 'Super Bot 9000'})
    soup = bs(res.content, 'lxml')

    cities = [item['href'] for item in soup.select('#browse_view a')]
    for c in cities:
        r=s.get(c)
        s1=bs(r.content,'lxml')
        categories = [item['href'] for item in s1.select('.three_browse_columns:nth-of-type(2) a')]
        for c1 in categories:
            r1=s.get(c1)
            s2=bs(r1.content,'lxml')
            lawyers = [item['href'].split('*')[1] if '*' in item['href'] else item['href'] for item in
                       s2.select('.indigo_text .directory_profile')]



            for i in lawyers:
                r2 = s.get(i)
                s3 = bs(r2.content, 'lxml')
                name = s3.select_one('#lawyer_name').text
                category = s3.select_one('#attorney_profile_heading').text
                firm = s3.select_one('#firm_profile_page').text
                address = ' '.join([string for string in s3.select_one('#poap_postal_addr_block').stripped_strings][1:])
                practices = ' '.join([item.text for item in s3.select('#pa_list li')])
                records.append({'Names': name,'Category':category,'Address': address, 'Firm Name': firm,'Practice Area':practices})
df = pd.DataFrame(records,columns=['Names','Category','Address','Farm Name','Practice Areas'])
df=df.drop_duplicates()
df.to_excel(r'C:\Users\laptop\Desktop\lawyers.xls', sheet_name='MyData2', index = False, header=True)

”“我希望程序完成其执行并创建一个.xls文件，但是它仍在执行，甚至我也不知道完成它需要多长时间。无限循环是否有可能？发生了？如果可能的话建议。”

Answer 1

我发现您要抓取的数据太多，使用BeautifulSoup将花费很多时间，我尝试抓取this website，即使将搜索分为四个不同的程序文件，它也花费了大约12个小时才能成功完成执行，我还尝试了您的代码，用于仅布伦特伍德城，大约花费了一个小时。我看不到您的代码中有无限循环！让它运行并保持耐心。

您的程序还没有创建任何.xml，因为它尚未到达代码的那一部分。

PS：我知道这应该是一条评论，但我目前没有足够的声望来做到这一点。希望这个答案能帮助您和我也赢得声誉，以便下次可以发表评论。

使用python中的bs4从网站的不同链接中获取律师详细信息

1 个答案: