Question

我正试图从下面的网页上删除表格数据：

http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html

以下是我为此编写的代码的一部分：

from selenium import webdriver
from bs4 import BeautifulSoup

webPage = 'http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html'

browser = webdriver.Firefox()
browser.get(webPage) 
page = browser.page_source

soup = BeautifulSoup(page, 'html.parser')
browser.close()

table = soup.find_all('div', class_='leaderboardTable RES')
rowdata = table[0].find(id = '1')
print(rowdata.prettify())
elem = rowdata.get_text()
elemList = elem.split()
print(elem)
print(elemList)

列表打印（elemList）输出以下列表：

[＆＃39; 1＆＃39;，＆＃39; CHAN＆＃39;，＆＃39; Shih-chang＆＃39;，＆＃39; TPE＆＃39;，＆＃39; -12＆＃39 ;，＆＃39; 71＆＃39;＆＃39; 67＆＃39;，＆＃39; 63＆＃39;，＆＃39; 67＆＃39;，＆＃39; 268＆＃39;，＆＃39 ; 122,047＆＃39;，＆＃39; **＆＃39;，＆＃39;€＆＃39;，＆＃39; 122,047＆＃39;]

我遇到的问题是我需要输出两个项目 - ＆＃39; CHAN＆＃39; ＆安培; ＆＃39;施昌＆＃39; - 作为一个项目（即＆＃39;陈世昌＆＃39;）

print（rowdata.prettify（））显示它们应该是以下输出中的一个项目：

<span class="hname">
 <a alt="Player Profile" href="/europeantour/players/playerid=33819/index.html" title="Player Profile">
  CHAN Shih-chang
 </a>
</span>

但是，elem.split（）函数会根据它们之间的空格分隔它们。

如何使用＆＃39; span＆＃39;创建列表？标签作为项目分隔符而不是＆＃39;空间＆＃39; .split（）函数使用的标准？

有关如何克服这一点的任何建议将不胜感激！

如何在python中使用HTML标记创建列表

0 个答案: