使用Python读取网页的内容

时间:2016-03-05 20:28:34

标签: python urllib

我正在尝试获取网页的内容。出于某种原因,每当我尝试urlopen时,它都说“没有这样的资源”。我也不能使用urllib2。

我只想获取http://www.example.com

等网页的内容
import urllib
import re

textfile = open('depth_1.txt','w')
print("Enter the URL you wish to crawl..")
print('Usage  - "http://phocks.org/stumble/creepy/" <-- With the double quotes')
myurl = input("@> ")
for i in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(myurl).read(), re.I):
    print(i) 
    for ee in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(i).read(), re.I):
            print(ee)
            textfile.write(ee+'\n')
textfile.close()

这是错误:

Traceback (most recent call last):
  File "/Users/austinhitt/Desktop/clases_example.py", line 8, in <module>
    for i in re.findall('''href=["'](.[^"']+)["']''',
urllib.urlopen(myurl).read(), re.I):
AttributeError: module 'urllib' has no attribute 'urlopen'

1 个答案:

答案 0 :(得分:0)

仅针对内容使用请求,如果您想要使用scrapy所需的内容,例如:

import requests
r = requests.get('http://scrapy.org')
r.content
r.headers
r.status_code