Question

我正在开发python 3.4应用程序，该应用程序旨在提取html网页中包含版权符号的标签的所有文本。有两种情况； 1.版权符号（在页面源代码视图中）表示为解码后的“＆copy;”。例如在https://www.wired.com/account/sign-in/中。此处针对的文本是“＆复制； 2018CondéNast。保留所有权利。” 2.版权符号（在页面源代码视图中）表示为“©”，例如在https://www.aepohio.com/account/login.aspx中。此处针对的文字是“©1996-2015 American Electric Power。保留所有权利。”。搜索应基于符号。我已经尝试过以下选项，但是它不能完成工作；

url='https://www.wired.com/account/sign-in/'
webpage=requests.get(url)
soup=BeautifulSoup(webpage.content, 'html.parser')
for tag in soup.findAll(text=re.compile(r'© | & copy ;')):   
        copyrightTexts = tag.parent.text
print(copyrightTexts )

如果有人可以使用上述网页作为示例提供典型代码，我将不胜感激。使用BeautifulSoup或其他任何方法都可以。

非常感谢。

如何使用python 3从html网页中提取带有©符号的版权信息

0 个答案: