网站donedeal.ie不提供按我想要过滤的某些字段进行搜索或过滤的功能。我正在尝试从搜索结果页面获取每个结果页面的链接。然后我想从这些具有相同结构的结果网页中提取一些文本。
我已经下载了一些搜索结果列表页面,并检查了HTML。我研究了使用sed来提取每个结果的链接。然后我想我应该以某种方式使用DOM。我一直在Chrome开发者工具中使用PhantomJS和Javascript控制台。
这是单个结果页面的示例。 http://cars.donedeal.ie/cars-for-sale/01-passat/8313920
每个链接都位于div
class="listing-info"
。 div
的第一个元素是另一个div
,此div
的第一个元素是a
元素。
<div class="listing-info">
<div class="title"><a href="http://cars.donedeal.ie/cars-for-sale/renault-megane/7911289" title="renault megane" > ... </a></div>
...
</div>
我正试图在所有网页上获取所有结果的href
链接。
以下是单个结果页面的标记。
<div class="mainAdArea">
...
<table class="extraAdDetails">
<tbody>
...
<tr>
<td class="value">Manual</td>
<td class="value">Petrol</td>
<td class="value">1.6 litre</td>
</tr>
...
<tr>
...
<td class="value">
Mar 2015 </td>
</tr>
</tbody>
</table>
</div>
我希望提取的信息看起来像这样:
手动,汽油,1.6升,......,2015年3月
我认为使用这些信息的最简单方法是将每个页面的信息以CSV格式提取到1行。不过,我完全乐于接受建议。
最简单的方法是做什么?