搜索网页

时间:2011-02-07 20:07:15

标签: python search text find webpage

嘿我正在研究一个需要浏览网页的Python项目。我想查看一个特定的文本,如果找到文本,那么它会打印出来。如果没有,它会输出错误信息。我已经尝试过不同的模块,比如libxml,但我无法弄清楚我会怎么做。

有人能提供一些帮助吗?

2 个答案:

答案 0 :(得分:4)

你可以做一些简单的事情:


import urllib2
import re

html_content = urllib2.urlopen('http://www.domain.com').read()

matches = re.findall('regex of string to find', html_content);

if len(matches) == 0: 
   print 'I did not find anything'
else:
   print 'My string is in the html'

答案 1 :(得分:3)

lxml很棒:http://lxml.de/parsing.html

我经常使用xpath从html中提取数据。

另一个选项是http://www.crummy.com/software/BeautifulSoup/,这也很棒。