从许多结构化网页中提取文本

时间:2014-12-27 20:06:28

标签: html phantomjs

网站donedeal.ie不提供按我想要过滤的某些字段进行搜索或过滤的功能。我正在尝试从搜索结果页面获取每个结果页面的链接。然后我想从这些具有相同结构的结果网页中提取一些文本。

我已经下载了一些搜索结果列表页面,并检查了HTML。我研究了使用sed来提取每个结果的链接。然后我想我应该以某种方式使用DOM。我一直在Chrome开发者工具中使用PhantomJS和Javascript控制台。

这是结果列表页面的示例。 http://cars.donedeal.ie/find/cars/for-sale/Ireland/?filters%5BbodyType%5D=Saloon&ranges%5Bprice_from%5D=1000&ranges%5Bprice_to%5D=10000&sort=price&source=ALL

这是单个结果页面的示例。 http://cars.donedeal.ie/cars-for-sale/01-passat/8313920

每个链接都位于div class="listing-info"div的第一个元素是另一个div,此div的第一个元素是a元素。

<div class="listing-info">
    <div class="title"><a href="http://cars.donedeal.ie/cars-for-sale/renault-megane/7911289" title="renault megane" > ... </a></div>

    ...

</div>

我正试图在所有网页上获取所有结果的href链接。

以下是单个结果页面的标记。

<div class="mainAdArea">
    ...
    <table class="extraAdDetails">
        <tbody>
            ...
            <tr>
                <td class="value">Manual</td>
                <td class="value">Petrol</td>
                <td class="value">1.6 litre</td>
            </tr>
            ...
            <tr>
                ...
                <td class="value">
                    Mar 2015 </td>
            </tr>
        </tbody>
    </table>
</div>

我希望提取的信息看起来像这样:

手动,汽油,1.6升,......,2015年3月

我认为使用这些信息的最简单方法是将每个页面的信息以CSV格式提取到1行。不过,我完全乐于接受建议。

最简单的方法是做什么?

0 个答案:

没有答案