数据抓取为以下链接返回空白

时间:2014-09-22 08:15:11

标签: python python-2.7 web-scraping

我要求从以下链接中删除数据http:// 164。100. 47. 132 /LssNew/members/homepage.aspx?mpsno=4589(详细选区;党名;现址和永久地址)

我发现这些标签过于通用,无法形成废弃此数据的基础。有人可以指导我获取这些数据吗?

我正在使用的示例:

import urllib
import re

htmlfile = urllib.urlopen("http:// 164. 100. 47. 132/LssNew/members/homepage.aspx?mpsno=4433")
htmltext = htmlfile.read()
##regex = '<span id="ctl00_ContPlaceHolderMain_Homepagetest1_Label4">(.+?)</span>'
regex = '<span class="style13">(.+?)</span>'
pattern = re.compile(regex)
print htmltext
print pattern
lsmember = re.findall(pattern,htmltext)

print lsmember[0:100]

1 个答案:

答案 0 :(得分:0)

是否必须使用您自己的脚本来废弃此网站?

有一项服务可以通过废弃网页来创建API REST,并且通常可以轻松找到您自己的模式。

此服务为https://www.kimonolabs.com/

它是免费的,但它是第三方服务,所以我不知道你是否必须使用自己的脚本,或者它对你来说很棒。有些网站很难废弃,就像这种情况一样,你需要的信息是在一个没有类的表中。

此服务还支持URL中的参数,因此您可以为许多可能的html文件创建一个参数。