我正试图在注册选民身上刮擦新罕布什尔州国务卿的网站。到目前为止,我已经可以使用以下代码在“美丽的汤”中获取网站的文本:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from openpyxl import Workbook
import getpass
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = urlopen('http://sos.nh.gov/NamesHistory.aspx')
html = BeautifulSoup(url, 'html.parser')
html.find('table', attrs={'class':'table-border2-black'}).get_text
但是,我的问题是我如何能够将表格中的文本转换成可用的数据框,就像网站(http://sos.nh.gov/NamesHistory.aspx)上显示的那样?我的问题有所不同,因为该网站与以前的网站不同。
答案 0 :(得分:0)
您需要使用以下命令使用csv
文件转换报废的数据,
import csv
with open ('filename.cv','wb') as file:
writer=csv.writer(file)
for row in course_list:
writer.writerow(row)
您也可以在这里writing and saving CSV file from scraping data using python and Beautifulsoup4看到它。
此后,您需要访问csv文件并将数据转换为数据帧以进行进一步处理。如果您不知道该怎么做,请阅读熊猫文件,从这里开始: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html