Scrapy / Python网页缺少关闭TR / TD标签

时间:2018-03-22 06:14:39

标签: python scrapy

我正在重做数据抓取项目。有一个网站的数据表缺少大部分或全部关闭的TR和TD标签。当我第一次使用JS完成项目时,我只是复制了网站,然后在遇到新的“”标记时将数据拆分为行数组。

我想尝试使用python / scrapy重建这个项目,只是想知道是否有更简单的方法来使用选择器访问数据。另外,当response.data.split(')不起作用时,我有点困惑如何分割数据。

1 个答案:

答案 0 :(得分:0)

我理解你的问题。你可以使用beautyfulsoup的select方法来成功查询。我为你制作了一个演示代码。希望这会对你有所帮助。

import requests
from bs4 import BeautifulSoup
url = 'http://killedbypolice.net/';
page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')
soup.select('table tr')
print(soup.select('table')[0])