TypeError:期望的字符串或类字节对象

时间:2016-03-11 10:28:44

标签: python beautifulsoup html-parsing

我已编写script来解析HTML并仅打印文本内容。我想忽略标签。但我的程序有问题。我不确定它是什么。请帮帮我。

enter image description here

import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"

def hi():
    dep = urllib.request.urlopen(url)
    soup = BeautifulSoup(dep, 'html.parser')
    for link in soup.find_all('p', string=True):
        result = re.sub(b'<.*?>', "", link)
        print (result)
hi() 

网站link

1 个答案:

答案 0 :(得分:7)

我相信,NavigableString变量中有link

强制将其强制转换为字符串,如:

for link in soup.find_all('p', string=True):
    result = re.sub(b'<.*?>', "", str(link))
    print (result)