我正在运行一个用于搜集短语的脚本,然后在Chrome窗口中打开链接。我想从运行脚本时打开的搜索结果中排除特定域名。
任何人都可以指出我正确的方向,所以我可以添加一些代码到正确的位置,以便没有打开某些链接?请立即查看我在下面使用的代码。
import webbrowser
import sys
import pyperclip
import requests
import bs4
def start():
if len(sys.argv) > 1:
keyword = 'my+search+term'.join(sys.argv[1:])
else:
# if no keyword is entered, the script would
# search for the keyword copied in the clipboard
keyword = pyperclip.paste()
res = requests.get('https://google.com/search?q='+keyword)
soup = bs4.BeautifulSoup(res.text,'lxml')
links = soup.select('.r a')
tab_counts = min(5, len(links))
for i in range(tab_counts):
webbrowser.open('https://google.com' + links[i].get('href'))
start()
答案 0 :(得分:0)
抱歉,但不会排除您不搜索的所有内容吗?试试这个,看看你是否可以根据自己的特定需求进行调整。
import urllib
from bs4 import BeautifulSoup
import requests
import webbrowser
text = 'hello world'
text = urllib.parse.quote_plus(text)
url = 'https://google.com/search?q=' + text
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
for g in soup.find_all(class_='g'):
print(g.text)
print('-----')