我正试图从下面的网页上删除表格数据:
http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html
以下是我为此编写的代码的一部分:
from selenium import webdriver
from bs4 import BeautifulSoup
webPage = 'http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html'
browser = webdriver.Firefox()
browser.get(webPage)
page = browser.page_source
soup = BeautifulSoup(page, 'html.parser')
browser.close()
table = soup.find_all('div', class_='leaderboardTable RES')
rowdata = table[0].find(id = '1')
print(rowdata.prettify())
elem = rowdata.get_text()
elemList = elem.split()
print(elem)
print(elemList)
列表打印(elemList)输出以下列表:
[' 1',' CHAN',' Shih-chang',' TPE',' -12&#39 ;,' 71'' 67',' 63',' 67',' 268',&#39 ; 122,047',' **','€',' 122,047']
我遇到的问题是我需要输出两个项目 - ' CHAN' &安培; '施昌' - 作为一个项目(即'陈世昌')
print(rowdata.prettify())显示它们应该是以下输出中的一个项目:
<span class="hname">
<a alt="Player Profile" href="/europeantour/players/playerid=33819/index.html" title="Player Profile">
CHAN Shih-chang
</a>
</span>
但是,elem.split()函数会根据它们之间的空格分隔它们。
如何使用&#39; span&#39;创建列表?标签作为项目分隔符而不是&#39;空间&#39; .split()函数使用的标准?
有关如何克服这一点的任何建议将不胜感激!