找不到用于刮板的html对象

时间:2018-10-05 03:11:37

标签: python pandas

嗨,我正在尝试从网站创建数据集。我在kaggle上找到了数据集,并想使用该人用来获取更新版本的刮板,但是我遇到了一些错误问题。这给了我这个错误:

AttributeError:

 'NoneType' object has no attribute 'find_all'

据我所知,这意味着该行无法找到数据,并且已进行了某种更改(基于我通过谷歌搜索发现的内容):

chart = soup.find("table", class_="chart")

我已经转到页面并使用ctrl + u查找html并找到了表格/图表,但是我却找不到我需要的东西。有没有更好的方法可以找到它,或者有人可以指导我,谢谢您的帮助!

我尝试在此处添加文本,但在例外之后给了我一个错误:继续,此后不接受任何代码,并且不会发布,因此这是指向github fork的链接:

https://github.com/Suljin/vgchartzScrape/blob/master/vgchartzfull.py

以下是kaggle链接:https://www.kaggle.com/rush4ratio/video-game-sales-with-ratings/home

对不起,忘记了URL,这确实有帮助> < http://www.vgchartz.com/gamedb/?page=18&results=1000&name=&platform=&minSales=0.01&publisher=&genre=&sort=GL

2 个答案:

答案 0 :(得分:0)

我看到了链接,然后基于html最新的html标签,我更新了如下代码,它应该可以工作。尽管列名已更改,所以您可以相应地对其进行更改。

这是更新的代码(Python 3):

from bs4 import BeautifulSoup
import urllib
import pandas as pd

pages = 18
rec_count = 0
rank = []
gname = []
platform = []
year = []
genre = []
publisher = []
sales_na = []
sales_eu = []
sales_jp = []
sales_ot = []
sales_gl = []

urlhead = 'http://www.vgchartz.com/gamedb/?page='
urltail = '&results=1000&name=&platform=&minSales=0.01&publisher=&genre=&sort=GL'

for page in range(1, pages):
    surl = urlhead + str(page) + urltail
    r = urllib.request.urlopen(surl).read()
    soup = BeautifulSoup(r, features="lxml")
    print(page)
    chart = soup.find('div', id='generalBody').find('table')
    for row in chart.find_all('tr')[3:]:
        try:
            col = row.find_all('td')

            # extract data into column data
            column_1 = col[0].string.strip()
            column_2 = col[1].find('img')['alt'].strip()
            column_3 = col[2].find('a').string.strip()
            column_4 = col[3].find('img')['alt'].strip()
            column_5 = col[4].string.strip()
            column_6 = col[5].string.strip()
            column_7 = col[6].string.strip()
            column_8 = col[7].string.strip()
            column_9 = col[8].string.strip()
            column_10 = col[9].string.strip()
            column_11 = col[10].string.strip()

            # Add Data to columns
            # Adding data only if able to read all of the columns
            rank.append(column_1)
            gname.append(column_2)
            platform.append(column_3)
            year.append(column_4)
            genre.append(column_5)
            publisher.append(column_6)
            sales_na.append(column_7)
            sales_eu.append(column_8)
            sales_jp.append(column_9)
            sales_ot.append(column_10)
            sales_gl.append(column_11)

            rec_count += 1

        except:
            print('Got Exception')
            continue

columns = {'Rank': rank, 'Name': gname, 'Platform': platform, 'Year': year, 'Genre': genre, 'Publisher': publisher,
           'NA_Sales': sales_na, 'EU_Sales': sales_eu, 'JP_Sales': sales_jp, 'Other_Sales': sales_ot,
           'Global_Sales': sales_gl}

print (rec_count)
df = pd.DataFrame(columns)
print(df)
df = df[['Rank', 'Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales',
         'Global_Sales']]
del df.index.name
df.to_csv("vgsales.csv", sep=",", encoding='utf-8')

答案 1 :(得分:0)

此网站明确拒绝报废。使用条款说明:

'未经授权访问我们的网站即违反这些条款,也违反法律。您同意不通过VGChartz Ltd提供的用于访问我们网站的界面以外的任何方式访问我们的网站。您同意不使用任何自动化手段(包括但不限于代理,机器人,脚本或蜘蛛程序)来访问,监视或复制我们网站的任何部分,除非我们事先以书面形式批准了这些自动化手段。 ' -http://www.vgchartz.com/terms-of-use.php

您是否要求获得剪贴数据的权限?