如何在python中使用HTML标记创建列表

时间:2016-08-02 21:47:12

标签: python-3.x

我正试图从下面的网页上删除表格数据:

http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html

以下是我为此编写的代码的一部分:

from selenium import webdriver
from bs4 import BeautifulSoup

webPage = 'http://www.europeantour.com/europeantour/season=2016/tournamentid=2016056/leaderboard/index.html'

browser = webdriver.Firefox()
browser.get(webPage) 
page = browser.page_source

soup = BeautifulSoup(page, 'html.parser')
browser.close()

table = soup.find_all('div', class_='leaderboardTable RES')
rowdata = table[0].find(id = '1')
print(rowdata.prettify())
elem = rowdata.get_text()
elemList = elem.split()
print(elem)
print(elemList)

列表打印(elemList)输出以下列表:

[' 1',' CHAN',' Shih-chang',' TPE',' -12&#39 ;,' 71'' 67',' 63',' 67',' 268',&#39 ; 122,047',' **','€',' 122,047']

我遇到的问题是我需要输出两个项目 - ' CHAN' &安培; '施昌' - 作为一个项目(即'陈世昌')

print(rowdata.prettify())显示它们应该是以下输出中的一个项目:

<span class="hname">
 <a alt="Player Profile" href="/europeantour/players/playerid=33819/index.html" title="Player Profile">
  CHAN Shih-chang
 </a>
</span>

但是,elem.split()函数会根据它们之间的空格分隔它们。

如何使用&#39; span&#39;创建列表?标签作为项目分隔符而不是&#39;空间&#39; .split()函数使用的标准?

有关如何克服这一点的任何建议将不胜感激!

0 个答案:

没有答案