Python TypeError Traceback(最近一次调用最后一次)

时间:2016-09-22 17:42:35

标签: python web-crawler

我正在尝试构建一个爬虫,我想打印该页面上的所有链接 我使用的是Python 3.5

有我的代码

import requests
from bs4 import BeautifulSoup
def crawler(link):
    source_code = requests.get(link)
    source_code_string = str(source_code)
    source_code_soup = BeautifulSoup(source_code_string,'lxml')
    for item in source_code_soup.findAll("a"):
        title = item.string
        print(title)

crawler("https://www.youtube.com/watch?v=pLHejmLB16o")

但是我得到了这样的错误

TypeError                                 Traceback (most recent call last)
<ipython-input-13-9aa10c5a03ef> in <module>()
----> 1 crawler('http://archive.is/DPG9M')

TypeError: 'module' object is not callable

2 个答案:

答案 0 :(得分:2)

如果您打算只打印链接的标题,那么你会犯一个小错误,更换一行:

source_code_string = str(source_code)

使用

source_code_string = source_code.text 

除此之外,代码看起来很好并且正在运行。 我们调用文件web_crawler_v1.py

import requests
from bs4 import BeautifulSoup
def crawler(link):
    source_code = requests.get(link)
    source_code_string = source_code.text 
    source_code_soup = BeautifulSoup(source_code_string,'lxml')
    for item in source_code_soup.findAll("a"):
        title = item.string
        print(title)


crawler("https://www.youtube.com/watch?v=pLHejmLB16o")

关于这个错误,如果你像这样正确地调用文件

,你不应该得到那个错误
python3 wen_crawler_v1.py

答案 1 :(得分:0)

代替

source_code = requests.get(link)

使用:

source_code = requests.get(link, verify = False)

您将收到 HTTPS 警告,但代码将执行