使用rvest和html_node从HTML表

时间:2016-11-09 23:35:02

标签: r html-table rvest

我首先要说的是我对R很新,所以请对第一个计时器温和一点。

我创建了一个R函数来使用rvest库从网页中抓取HTML数据。我已成功使用html_node()函数从页面中提取一些数据,但我遇到了HTML表格中的一些数据。

我已经搜索了stackoverflow和其他网站并找到了示例,但它们似乎都没有在这个特定的HTML上工作。以下是我正在使用的代码:

    auctioninfo <- html_node(detailpg, "Auction") %>%
        html_text()

    print(auctioninfo)
  • detailpg包含整页HTML,其中包含下面的HTML,其中包含我要提取的信息。
  • “拍卖”是我试图提取的表格中的项目。

我为拍卖尝试了多个标识符(#Auction,.Auction等)。

以下是我正在“抓取”数据页面的HTML代码。

        

    <table class="bj-car-details-primary">
                        <tbody><tr class="row-fluid">
                <td class="" style="width: 40%;">Auction</td>
                <td class="" style="width: 60%;"><span id="Auction">Las Vegas 2016</span></td>

当我执行代码时,我只在auctioninfo矢量中收到NA。

[1] NA

我也尝试过html_table()函数但是也没有按预期工作。

我确信答案就在我面前,但我已经被困住了很长一段时间,而现在我正睁着眼睛看着它。

我需要帮助识别提取此数据所需的CSS,或帮助使用html_table()的语法来获取此特定数据。

0 个答案:

没有答案