我要求从以下链接中删除数据http:// 164。100. 47. 132 /LssNew/members/homepage.aspx?mpsno=4589(详细选区;党名;现址和永久地址)
我发现这些标签过于通用,无法形成废弃此数据的基础。有人可以指导我获取这些数据吗?
我正在使用的示例:
import urllib
import re
htmlfile = urllib.urlopen("http:// 164. 100. 47. 132/LssNew/members/homepage.aspx?mpsno=4433")
htmltext = htmlfile.read()
##regex = '<span id="ctl00_ContPlaceHolderMain_Homepagetest1_Label4">(.+?)</span>'
regex = '<span class="style13">(.+?)</span>'
pattern = re.compile(regex)
print htmltext
print pattern
lsmember = re.findall(pattern,htmltext)
print lsmember[0:100]
答案 0 :(得分:0)
是否必须使用您自己的脚本来废弃此网站?
有一项服务可以通过废弃网页来创建API REST,并且通常可以轻松找到您自己的模式。
此服务为https://www.kimonolabs.com/
它是免费的,但它是第三方服务,所以我不知道你是否必须使用自己的脚本,或者它对你来说很棒。有些网站很难废弃,就像这种情况一样,你需要的信息是在一个没有类的表中。
此服务还支持URL中的参数,因此您可以为许多可能的html文件创建一个参数。