Web中的Web Scraping从基础表中提取数据

时间:2016-03-07 08:49:09

标签: python web-scraping

我使用的是Python 3.4,我试图从下面的链接中删除底层数据并转储到.csv文件中。 我目前正在使用BeautifulSoup,我的脚本中的前几行如下所示:

import urllib
from urllib.request import urlopen
from bs4 import BeautifulSoup
htmlfile=urlopen("https://secure.moneygram.com/estimate")
soup=BeautifulSoup(htmlfile)
print (soup.prettify()[0:1000])

任何人都可以提供给我一些帮助

由于

2 个答案:

答案 0 :(得分:0)

如果您需要登录,则需要使用splinter(浏览器),如果您不需要它并且数据清晰,您可以使用find,findNext,findAll,find_by_name从html代码中提取数据, find_by_id,find_by_css ...... 例如:

    soop = htmltext.find('table',{"id":"noticeResults"}).findNext('tbody')

此代码使用id" noticeResults"提供表(tbody)中的数据。

答案 1 :(得分:0)

你应该看看这个python BeautifulSoup parsing table

然后保存为csv:

data = [...] # your data coming from BS4
import csv
with open('csv_file.csv', 'wb') as csvfile:
    writer = csv.writer(csvfile)
    for row in data
        writer.writerow(row)