基于Cab的RVest的R基于Web的爬虫

时间:2020-11-05 23:19:16

标签: r web-scraping rvest

也许与众不同,但是我想找到我有兴趣购买的特定步枪。我对R很熟悉,所以我从这条道路上走了,但我猜测还有更好的选择。

我想做的是每小时检查一次网页,以查看可用性是否已更改。如果有,我会收到一条短信。

我开始使用rvest和twilio。问题是我无法弄清楚如何一直获取所需的数据。该页面上有一个“添加到购物车”按钮,如果使用CSS样式显示:无,则该商品不可用。

我尝试了各种方法来尝试通过使用id名称,css类,xpath等来深入了解特定的div,但是却一无所获。

有什么想法吗?是div名称的格式吗?还是我必须手动挖掘每个嵌套的div?

编辑:我能够找到正确的xpath进行工作。但是正如下面指出的那样,您看不到样式。

EDIT2-在缺货div中,显示文本“仅在部分商店中”,但是我不知道如何隔离它。

<?php
$html = '<time datetime="2020-11-05T20:34:38+00:00" class="time">20:34</time></a></span>';

preg_match('/<time datetime="(.*?)">[0-9:]+<\/time>/i', $html, $d );


//print_r ($d);
print_r ($d[1]);
?>
Output

2020-11-05T20:34:38+00:00" class="time

0 个答案:

没有答案
相关问题