我有这个简单的html表,它是通过网站的请求提取的:
<tr align="center" class="tableRow1Font" >
<td>OPEN</td>
<td>80002</td>
<td>
<span style="font-weight:bold;">
ACCY
</span>
<A HREF="http://bulletin.gwu.edu/search/?P=ACCY+2001" target="_blank">
<span style="font-weight:bold;">
2001
</span>
</A>
</td>
<td>10</td>
<td>Intro Financial Accounting</td>
<td>3.00</td>
<td> Ray, K</td>
<td><a href="http://virtualtour.gwu.edu/#MON" target="_blank" >MON</a> 113</td>
<td>MW<br>12:45PM - 02:00PM</td>
<td>08/25/14 - 12/06/14</td>
<td>
</td>
</tr>
我已经在python中设置了这样的提取:
import bs4
import requests
response = requests.get('http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY')
soup = bs4.BeautifulSoup(response.text)
使用Beautiful Soup如何从该表中提取所有'td'标题并用逗号分隔它们?
我希望提取的数据如下所示:
OPEN, 80002, ACCY 2001, 10, Intro to Financial Accounting, 3.00, Ray, K, MW 12:45-02:00
答案 0 :(得分:1)
这将帮助您入门。 html页面中仍然存在大量无关的空白,需要从结果中清除。
import bs4
import requests
response = requests.get('http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY')
soup = bs4.BeautifulSoup(response.text)
for tr in soup.findAll('tr')[11:]:
stack = []
for td in tr.findAll('td'):
stack.append(td.text.strip())
print(",".join(stack))
请注意,这会忽略页面上的前11个,因为它们似乎有无关的信息。
您还需要找到一种更好的方式来保存数据,而不是简单地用逗号分隔 - 否则,课程描述中的任何逗号都可能会丢弃您尝试读取数据的任何代码。使用CSV库可能更好,而不是手动用逗号连接数据。