如何使用python 3从html网页中提取带有©符号的版权信息

时间:2018-07-12 13:49:12

标签: html python-3.x web-scraping beautifulsoup character-encoding

我正在开发python 3.4应用程序,该应用程序旨在提取html网页中包含版权符号的标签的所有文本。有两种情况;  1.版权符号(在页面源代码视图中)表示为解码后的“©”。例如在https://www.wired.com/account/sign-in/中。此处针对的文本是“&复制; 2018CondéNast。保留所有权利。”  2.版权符号(在页面源代码视图中)表示为“©”,例如在https://www.aepohio.com/account/login.aspx中。此处针对的文字是“©1996-2015 American Electric Power。保留所有权利。”。 搜索应基于符号。我已经尝试过以下选项,但是它不能完成工作;

url='https://www.wired.com/account/sign-in/'
webpage=requests.get(url)
soup=BeautifulSoup(webpage.content, 'html.parser')
for tag in soup.findAll(text=re.compile(r'© | & copy ;')):   
        copyrightTexts = tag.parent.text
print(copyrightTexts )

如果有人可以使用上述网页作为示例提供典型代码,我将不胜感激。使用BeautifulSoup或其他任何方法都可以。

非常感谢。

0 个答案:

没有答案