PYTHON如何在HTML页面上搜索单词并进行测试

时间:2015-01-28 20:03:07

标签: python web request html-parsing pycurl

大家好,我在网页发布后,在html页面中搜索一个特殊的句子或单词

句子=无法解析主持人'http:'

我尝试使用带有b.getvalue()的pycurl来编写脚本,但似乎没有工作

网站试用http://www.moorelandpartners.com/plugins/system/plugin_googlemap2_proxy.php

代码:

http://pastebin.com/qAUjv1ux

我想搜索总句子,或者只是搜索“http”或“不能”这个词

感谢您的帮助

1 个答案:

答案 0 :(得分:0)

这似乎有效(使用我在评论中建议的'in'运算符):

import pycurl
import StringIO
import sys
import time

ip = "http://www.moorelandpartners.com/plugins/system/plugin_googlemap2_proxy.php"
c = pycurl.Curl()
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.TIMEOUT, 10) # Note 1
c.setopt(pycurl.CONNECTTIMEOUT, 10) # Note 1
c.setopt(c.URL, ip)

try:
    c.perform()
except Exception:
    gg = 88
    print "No ",ip
else:
    html = b.getvalue()
    if "Couldn't resolve host" in html: # Note 2
         print "{0} FOUND ".format( ip ) # Note 3
    else:
         print "do not works"

我做了什么:

  • 注1:超时时间延长 - 由于某种原因,设置“1”对我不起作用
  • 注2:使用'in'运算符测试返回的页面是否包含我们要查找的单词。
  • 注3:删除了对bcolors.OKGREEN和bcolors.ENDC的引用,因为未定义bcolors。

当我在我的电脑上测试它时“工作” - 即它声明它找到了网页,并找到了相关的文字。