我是Beautifulsoup的新手...这是我的挑战:
我有3000个URL的列表,我用它们来查找公司的名称。我想做的是:
这似乎很简单,但是我阅读的所有教程都假设一个用例是从单个url 抓取了多个内容元素,因此可以根据标记进行搜索,属性等。在我的示例中,我将无法检查每个网站的html,因此我需要搜索字符。
任何帮助将不胜感激!
答案 0 :(得分:0)
以下内容将帮助您入门:
from bs4 import BeautifulSoup
import requests
import re
for url in ['http://www.apple.com/', 'http://www.google.com', 'http://www.stackoverflow.com/']:
html = requests.get(url)
soup = BeautifulSoup(html.content, 'html.parser')
for text in soup.stripped_strings:
if '©' in text:
text = re.sub(r'\s+', ' ', text) # condense any whitespace
print(f'"{url}" {text}')
将显示:
"http://www.apple.com/" Copyright © 2018 Apple Inc. All rights reserved.
"http://www.google.com" © 2018 -
"http://www.stackoverflow.com/" site design / logo © 2018 Stack Exchange Inc; user contributions licensed under
使用Python 3.6.6测试