使用美丽的汤+ Python脚本从打开中排除搜索链接

时间:2018-05-14 09:06:13

标签: python python-3.x google-chrome proxy beautifulsoup

我正在运行一个用于搜集短语的脚本,然后在Chrome窗口中打开链接。我想从运行脚本时打开的搜索结果中排除特定域名。

任何人都可以指出我正确的方向,所以我可以添加一些代码到正确的位置,以便没有打开某些链接?请立即查看我在下面使用的代码。

import webbrowser
import sys
import pyperclip
import requests
import bs4


def start():
if len(sys.argv) > 1:
    keyword = 'my+search+term'.join(sys.argv[1:])
else:
    # if no keyword is entered, the script would 
    # search for the keyword copied in the clipboard
    keyword = pyperclip.paste()

res = requests.get('https://google.com/search?q='+keyword)
soup = bs4.BeautifulSoup(res.text,'lxml')
links = soup.select('.r a')
tab_counts = min(5, len(links))

for i in range(tab_counts):
    webbrowser.open('https://google.com' + links[i].get('href'))


start()

1 个答案:

答案 0 :(得分:0)

抱歉,但不会排除您不搜索的所有内容吗?试试这个,看看你是否可以根据自己的特定需求进行调整。

import urllib
from bs4 import BeautifulSoup
import requests
import webbrowser

text = 'hello world'
text = urllib.parse.quote_plus(text)

url = 'https://google.com/search?q=' + text

response = requests.get(url)

soup = BeautifulSoup(response.text, 'lxml')
for g in soup.find_all(class_='g'):
    print(g.text)
    print('-----')