在尝试抓取网站时,我遇到了一个特殊情况。我正在通过搜索栏搜索数百个名称,然后抓取表格。但是,有些名称是唯一的,与网站上的名称相比,在我的列表中的拼写有所不同。在这种情况下,我会在网站上手动查找几个名称,但仍然直接将我带到单个页面。其他时候,如果有多个具有相同或相似名字的人(在这种情况下,我想要在nba中打过球的人),则转到名字列表中。我已经考虑了这一点,但是我认为有必要提一下)。我该如何继续进入这些玩家的个人页面,而不必每次都运行脚本并点击错误以查看哪个玩家的拼写稍有不同?同样,即使拼写略有不同,也不会直接列出名称(在NBA中需要),数组中的名称将直接将您带到单个页面。一些示例包括Georgios Papagiannis(在网站上列为George Papagiannis),Ognjen Kuzmic(列为Ognen Kuzmic),Nene(列为Maybyner Nene,但将带您到名称列表https://basketball.realgm.com/search?q=nene)。这似乎很难,但是我觉得这是可能的。同样,每次将其与下一个播放器一起覆盖时,似乎没有将所有抓取的数据写入到csv中。多谢。
我得到的错误:
AttributeError: 'NoneType' object has no attribute 'text'
import requests
from bs4 import BeautifulSoup
import pandas as pd
playernames=['Carlos Delfino', 'Nene', 'Yao Ming', 'Marcus Vinicius', 'Raul Neto', 'Timothe Luwawu-Cabarrot']
result = pd.DataFrame()
for name in playernames:
fname=name.split(" ")[0]
lname=name.split(" ")[1]
url="https://basketball.realgm.com/search?q={}+{}".format(fname,lname)
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
if soup.find('a',text=name).text==name:
url="https://basketball.realgm.com"+soup.find('a',text=name)['href']
print(url)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
try:
table1 = soup.find('h2',text='International Regular Season Stats - Per Game').findNext('table')
table2 = soup.find('h2',text='International Regular Season Stats - Advanced Stats').findNext('table')
df1 = pd.read_html(str(table1))[0]
df2 = pd.read_html(str(table2))[0]
commonCols = list(set(df1.columns) & set(df2.columns))
df = df1.merge(df2, how='left', on=commonCols)
df['Player'] = name
print(df)
except:
print ('No international table for %s.' %name)
df = pd.DataFrame([name], columns=['Player'])
result = result.append(df, sort=False).reset_index(drop=True)
cols = list(result.columns)
cols = [cols[-1]] + cols[:-1]
result = result[cols]
result.to_csv('international players.csv', index=False)
答案 0 :(得分:2)
我对名字相似的NBA球员使用循环。您可以在下面的CSS选择器下面找到,以从搜索表中获取NBA球员:
.tablesaw tr:has(a[href*="/nba/teams/"]) a[href*="/player/"]
CSS选择器含义:按tablesaw
类查找表,查找表的子项tr
和子项a
,其子项href
包含{{1} }文字,然后找到/nba/teams/
包含a
href
我添加了搜索播放器名称和真实播放器名称列,您可以看到如何找到播放器。此列使用/player/
放置为第一和第二列(请参见代码中的注释)。
insert