我想从任何文章中提取Dawn.com以及Tribune.com的评论。我正在提取评论的方式是,在Dawn上定位课程<div class="comment__body cf">
,而在Tribune.com上课程=“内容”
我怎么能一般地做到这一点?这意味着,这些网站上没有类似的模式可以通过一个类来实现。
我应该为每个网站编写单独的代码吗?
答案 0 :(得分:2)
所有网站都使用不同的html
来表示观看次数及其评论。
您必须为每个站点实现不同的爬网程序。您也可以创建一个库文件来保存通用函数,而不是重复一些简单的函数。