我正在尝试提取按国家/地区名称分组的附表的所有数据, http://applications.slbfe.lk/jobbank/jsearchdisplay_an_m.asp?an=1712 我试图执行
response.xpath('//div').xpath('.//tr[@bgcolor="#CCCCCC"]/td/b/font/text()').extract()
在这里我选择国家/地区名称,但我如何获得此国家/地区名称下的所有数据,例如每个国家/地区的已批准空缺
答案 0 :(得分:2)
由于您没有向代码显示您编写的用于解析表格数据的代码,因此我在此处提供了一个演示,以便您了解如何从表中解析选择性数据。只需在我的代码中抽取代码中的选择器:
from bs4 import BeautifulSoup
import requests
link = "http://applications.slbfe.lk/jobbank/jsearchdisplay_an_m.asp?an=1712"
res = requests.get(link).text
soup = BeautifulSoup(res,"lxml")
table = soup.select("table")[3]
for items in table.select('tr'):
item_name = [' '.join(item.text.split()) for item in items.select('td')[:3]] #this is where you change the index which column to parse
print(' '.join(item_name))
部分结果:
Details Approved Vacancies Available Vacancies
Kuwait
House Boy 10 10
House Boy 10 8
House Cook - Male 10 10
House Cook - Male 10 8