MorningStar

时间:2017-12-08 23:09:44

标签: python-3.x xpath web-scraping finance

需要从Html中提取一些看起来像的数据:

<div class="r_tbar0 positionrelative">
    <h3>Financials</h3>
</div>
<table class="r_table1 text2" cellspacing="0" cellpadding="0">
    <thead>
        <tr>
            <th scope="row" align="left"></th>
            <th scope="col" id="Y0" align="right">2007-12</th>
            <th scope="col" id="Y1" align="right">2008-12</th>
            <!--More columns here-->
            <th scope="col" id="Y9" align="right">2016-12</th>
            <th scope="col" id="Y10" align="right">TTM</th>
        </tr>
    </thead>
    <tbody>
        <tr class="hr">
            <td colspan="12"></td>
        </tr>
        <tr>
            <th class="row_lbl" scope="row" id="i0">Revenue&nbsp;<span>USD Mil</span></th>
            <td headers="Y0 i0" align="right">5,858</td>
            <td headers="Y1 i0" align="right">5,808</td>
            <!--More cells here-->
            <td headers="Y9 i0" align="right">4,272</td>
            <td headers="Y10 i0" align="right">4,955</td>
        </tr>
        <tr class="hr">
            <td colspan="12"></td>
        </tr>
        <tr>
            <th class="row_lbl" scope="row" id="i1">Gross Margin %</th>
            <td headers="Y0 i1" align="right">37.4</td>
            <td headers="Y1 i1" align="right">39.9</td>
            <!--More cells here-->
            <td headers="Y9 i1" align="right">23.4</td>
            <td headers="Y10 i1" align="right">33.5</td>
        </tr>
        <!--More rows here-->
        <tr class="hr">
            <td colspan="12"></td>
        </tr>
    </tbody>
</table>

我希望通过搜索“收入”行然后查看2007专栏来从关键比率页面中说出2007年收入数据XPATH。

XPATH 2007年收入的位置:

//*[@id="financials"]/table/tbody/tr[2]/td[1]

tr [2]表示Revenue与之对齐的行。但是,如果我有一个查看多个股票的程序,我想确保tr [2]仍然关注收益。

我尝试了以下XPATH的多个版本,它返回一个NULL值。 (我正在使用XPATH助手和谷歌浏览器扩展程序)

//*[@id="financials"]/table/tbody/tr[contains(text(),'Revenue')]/td[1]

“收入”行的外部html代码:

<th class="row_lbl" scope="row" id="i0">Revenue&nbsp;<span>USD Mil</span></th>

2007年收入的外部html代码:

<td align="right" headers="Y0 i0" class="">5,858</td>

更新

根据以下答案,我写了:

//*[@id='financials']//td[contains(@headers,'i0')][1]

拉出2017年收入数据5,858

1 个答案:

答案 0 :(得分:1)

在“财务”表格中,“收入”是N = [] ; N = [0] ,而不是false。您可以通过引用th标记的tr属性来获取该表的列或行中的所有单元格。列为header,行为td,例如:

第一列有标题Y0..Yn

  

// * [@ id中= '金融'] // TD [含有(@标题, 'Y0')]

第一行有标题i0..in

  

// * [@ id中= '金融'] // TD [含有(@标头, 'I0')]

等等