尝试提取链接,但出现错误“ pandas.errors.ParserError:对令牌数据进行错误处理。C错误:捕获了缓冲区溢出-可能是格式错误的输入文件。”,但没有解决此错误。
使用selenium chromedriver send_key尝试过,但未成功。
from bs4 import BeautifulSoup
import requests
from selenium import webdriver
from selenium.webdriver import ActionChains
import csv
import re
import pandas as pd
links = pd.read_csv('C:\\Users\\dell\\Desktop\\CIN_Name.xlsx',encoding='utf8',dtype=str,header=None,error_bad_lines=False)
for i in range(0,5):
link = links.iloc[i,0]
url = "https://www.knowyourgst.com/gst-number-search/by-name-pan/"
driver = webdriver.Chrome(r'C:\chromedriver.exe')
driver.get(url)
driver.find_element_by_xpath("""//*[@id="gstnumber"]""").send_keys(str(link))
driver.find_element_by_xpath("""/html/body/div[1]/div/div[1]/div[1]/div[1]/form/div[2]/input""").click()
soup = BeautifulSoup(driver.page_source,'html.parser')
driver.close()
link = soup.find('div',{"id":"searchresult"}).find('a')
print(link['href'])
想要通过读取csv文件列将对象一一置于循环中来提取链接。请帮助我解决此错误。