Python BeautifulSoup webcrawling:获取没有链接或类标签的文本

时间:2015-07-09 23:49:14

标签: python beautifulsoup web-crawler

我尝试抓取的网站是http://www.boxofficemojo.com/yearly/chart/?yr=2015&p=.htm。 这个网站有一个电影列表,对于每部电影,我想在表格中获得以下信息,不包括日期。

enter image description here

enter image description here

我遇到了麻烦,因为文本没有链接或任何类标签。我已尝试使用多种方法,但它们都没有工作。

这是我到目前为止的一种方法,只是为了获得每部电影的排名。 我希望输出只是由每部电影的排名组成的列表列表,然后是另一个包含每部电影列表,周末总数等的列表。

listOfRanks = [[1, 1, 1,], [1, 2, 3], [3, 5,1]], etc.
listOfWeekendGross = [[208,806,270,106588440,54200000], [111111111, 222222222, 333333333]]


def getRank(item_url):
    href = item_url[:37]+"page=weekend&" + item_url[37:]
    response = requests.get(href)
    soup = BeautifulSoup(response.content, "lxml")  # or BeautifulSoup(response.content, "html5lib")
    rank = soup.select('tbody > tr > td > center > table > tbody > tr > td > font')
    print rank

这是我称之为此功能的地方 -

def spider(max_pages):
    url = 'http://www.boxofficemojo.com/yearly/chart/?page=' + str(max_pages) + '&view=releasedate&view2=domestic&yr=2015&p=.htm'
    source_code = requests.get(url)
    plain_text = source_code.text
    soup = BeautifulSoup(plain_text)
    for link in soup.select('td > b > font > a[href^=/movies/?]'):
        href = 'http://www.boxofficemojo.com' + link.get('href')
        getRank(href)

问题是getRank(href)方法没有正确地将排名添加到列表中。问题在于我想这一行 -

    rank = soup.select('tbody > tr > td > center > table > tbody > tr > td > font')

这可能不是获取此文本的正确方法。

如何从这个网站获得所有排名,周末总数等?

+++++++++++++++++++++++++++++++++ enter image description here

enter image description here

2 个答案:

答案 0 :(得分:1)

是的,问题出在您正在使用的选择器中。你看,该网站的标记是,非常糟糕。这些表格没有正确编码,实际上它们没有tbody标签,但Google Chrome仍然添加了它们,这就是您在Web开发者工具中看到它们的原因。

但是,正如我所说,它们不在实际的HTML代码中,因此如果在选择器中使用tbody,BeautifulSoup将无法匹配行。看起来该表具有类chart-wide,因此您可以使用:

来定位行
rows = soup.select('.chart-wide tr')

之后,你可以迭代那些rows,跳过第一个(因为那是标题)并解析其他的和它们各自的单元格。

这样的事情:

def getRank(item_url):
    href = item_url[:37]+"page=weekend&" + item_url[37:]
    response = requests.get(href)
    print response.status_code, "for", href
    soup = BeautifulSoup(response.content)  # or BeautifulSoup(response.content, "html5lib")

    rows = soup.select('.chart-wide tr')

    header_skipped = False
    for row in rows:
        if not header_skipped:
            header_skipped = True
            continue

        headers = "Date Rank WeekendGross Change Theaters Change/Avg GrossToDate Week".split()

        for header, child in zip(headers, row.children):
            print header, ":", child.text

答案 1 :(得分:0)

看起来,这个图表是动态生成的,使用Phantomjs,一切正常

from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.PhantomJS()
driver.get('http://www.boxofficemojo.com/movies/?page=weekend&id=jurassicpark4.htm')
soup = BeautifulSoup(driver.page_source)
soup.select('table.chart-wide tbody tr td font')

出[1]

[<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=date&amp;order=DESC&amp;p=.htm"><b>Date<br>(click to view chart)</br></b></a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=rank&amp;order=ASC&amp;p=.htm">Rank</a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=wkndgross&amp;order=DESC&amp;p=.htm">Weekend<br>Gross</br></a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=perchange&amp;order=DESC&amp;p=.htm">%<br>Change</br></a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=theaters&amp;order=DESC&amp;p=.htm">Theaters</a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=theaterchange&amp;order=ASC&amp;p=.htm">Change</a> / </font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=avg&amp;order=DESC&amp;p=.htm">Avg.</a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=todategross&amp;order=DESC&amp;p=.htm">Gross-to-Date</a></font>,
<font size="2"><a href="/movies/?page=weekend&amp;id=jurassicpark4.htm&amp;sort=weeknum&amp;order=ASC&amp;p=.htm">Week<br>#</br></a></font>,
<font size="2"><a href="/weekend/chart/?yr=2015&amp;wknd=24&amp;p=.htm"><b>Jun 12–14</b></a></font>,
<font size="2">1</font>,
<font size="2">$208,806,270</font>,
<font size="2">-</font>,
<font size="2">4,274</font>,
.
.
.
<font size="2">$500,373,420</font>,
<font size="2">3</font>,
<font size="2"><a href="/weekend/chart/?yr=2015&amp;wknd=27&amp;p=.htm"><b>Jul 3–5</b></a></font>,
<font size="2">2</font>,
<font size="2">$29,242,025</font>,
<font size="2"><font color="#ff0000">-46.4%</font></font>,
<font color="#ff0000">-46.4%</font>,
<font size="2">3,737</font>,
<font size="2"><font color="#ff0000">-461</font></font>,
<font color="#ff0000">-461</font>,
<font size="2">$7,825</font>,
<font size="2">$556,542,980</font>,
<font size="2">4</font>]