将python webcrawler从2.7转换为3.4

时间:2014-09-19 17:29:50

标签: python python-2.7 web-crawler python-3.4

对于这段代码,我将一个工作的python webcrawler从2.7转换为3.4。我做了一些修改但运行时仍然出错:

Traceback (most recent call last):
  File "Z:\testCrawler.py", line 11, in <module>
    for i in re.findall('''href=["'](.[^"']+)["']''', urllib.request.urlopen(myurl).read(), re.I):
  File "C:\Python34\lib\re.py", line 206, in findall
    return _compile(pattern, flags).findall(string)
TypeError: can't use a string pattern on a bytes-like object

这是代码本身,如果您看到语法错误,请告诉我。

#! C:\python34

import re
import urllib.request

textfile = open('depth_1.txt','wt')
print ("Enter the URL you wish to crawl..")
print ('Usage  - "http://phocks.org/stumble/creepy/" <-- With the double quotes')
myurl = input("@> ")
for i in re.findall('''href=["'](.[^"']+)["']''', urllib.request.urlopen(myurl).read(), re.I):
        print (i)  
        for ee in re.findall('''href=["'](.[^"']+)["']''', urllib.request.urlopen(i).read(), re.I):
                print (ee)
                textfile.write(ee+'\n')
textfile.close()

1 个答案:

答案 0 :(得分:0)

更改

urllib.request.urlopen(myurl).read()
例如

urllib.request.urlopen(myurl).read().decode('utf-8')

这里发生的是.read()返回bytes而非str,就像在python 2.7中一样,因此必须使用某种编码对其进行解码。