Question

大家好，我在网页发布后，在html页面中搜索一个特殊的句子或单词

句子=无法解析主持人'http：'

我尝试使用带有b.getvalue（）的pycurl来编写脚本，但似乎没有工作

网站试用http://www.moorelandpartners.com/plugins/system/plugin_googlemap2_proxy.php

代码：

http://pastebin.com/qAUjv1ux

我想搜索总句子，或者只是搜索“http”或“不能”这个词

感谢您的帮助

Answer 1

这似乎有效（使用我在评论中建议的'in'运算符）：

import pycurl
import StringIO
import sys
import time

ip = "http://www.moorelandpartners.com/plugins/system/plugin_googlemap2_proxy.php"
c = pycurl.Curl()
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.TIMEOUT, 10) # Note 1
c.setopt(pycurl.CONNECTTIMEOUT, 10) # Note 1
c.setopt(c.URL, ip)

try:
    c.perform()
except Exception:
    gg = 88
    print "No ",ip
else:
    html = b.getvalue()
    if "Couldn't resolve host" in html: # Note 2
         print "{0} FOUND ".format( ip ) # Note 3
    else:
         print "do not works"

我做了什么：

注1：超时时间延长 - 由于某种原因，设置“1”对我不起作用
注2：使用'in'运算符测试返回的页面是否包含我们要查找的单词。
注3：删除了对bcolors.OKGREEN和bcolors.ENDC的引用，因为未定义bcolors。

当我在我的电脑上测试它时“工作” - 即它声明它找到了网页，并找到了相关的文字。

PYTHON如何在HTML页面上搜索单词并进行测试

1 个答案: