Question

我要求从以下链接中删除数据http：// 164。100. 47. 132 /LssNew/members/homepage.aspx?mpsno=4589（详细选区;党名;现址和永久地址）

我发现这些标签过于通用，无法形成废弃此数据的基础。有人可以指导我获取这些数据吗？

我正在使用的示例：

import urllib
import re

htmlfile = urllib.urlopen("http:// 164. 100. 47. 132/LssNew/members/homepage.aspx?mpsno=4433")
htmltext = htmlfile.read()
##regex = '<span id="ctl00_ContPlaceHolderMain_Homepagetest1_Label4">(.+?)</span>'
regex = '<span class="style13">(.+?)</span>'
pattern = re.compile(regex)
print htmltext
print pattern
lsmember = re.findall(pattern,htmltext)

print lsmember[0:100]

Answer 1

是否必须使用您自己的脚本来废弃此网站？

有一项服务可以通过废弃网页来创建API REST，并且通常可以轻松找到您自己的模式。

此服务为https://www.kimonolabs.com/

它是免费的，但它是第三方服务，所以我不知道你是否必须使用自己的脚本，或者它对你来说很棒。有些网站很难废弃，就像这种情况一样，你需要的信息是在一个没有类的表中。

此服务还支持URL中的参数，因此您可以为许多可能的html文件创建一个参数。

数据抓取为以下链接返回空白

1 个答案: