我正在开发python 3.4应用程序,该应用程序旨在提取html网页中包含版权符号的标签的所有文本。有两种情况; 1.版权符号(在页面源代码视图中)表示为解码后的“©”。例如在https://www.wired.com/account/sign-in/中。此处针对的文本是“&复制; 2018CondéNast。保留所有权利。” 2.版权符号(在页面源代码视图中)表示为“©”,例如在https://www.aepohio.com/account/login.aspx中。此处针对的文字是“©1996-2015 American Electric Power。保留所有权利。”。 搜索应基于符号。我已经尝试过以下选项,但是它不能完成工作;
url='https://www.wired.com/account/sign-in/'
webpage=requests.get(url)
soup=BeautifulSoup(webpage.content, 'html.parser')
for tag in soup.findAll(text=re.compile(r'© | & copy ;')):
copyrightTexts = tag.parent.text
print(copyrightTexts )
如果有人可以使用上述网页作为示例提供典型代码,我将不胜感激。使用BeautifulSoup或其他任何方法都可以。
非常感谢。