尝试制作一个脚本来从不同的网站上抓取一篇或两篇文章(文章网址),我能够创建一个使用BeautifulSoup获取网站HTML的Python脚本,通过其类名找到网站的Navbar菜单,并循环遍历每个网站部分,问题是每个网站都有一个不同的类名称或XAV为Navbar菜单及其部分..
有没有办法让脚本尽可能少地进行人为干预,适用于多个网站?
任何建议都非常受欢迎,
由于
答案 0 :(得分:1)
做到了,我只需要使用Python和Selenium,每个网站的Navbar元素使用一个Xpath,不同网站页面上的所有类型的文章使用另一个Xpath,将所有内容保存在数据库中,其余的都进行了自定义对于我们的特定需求,最终并没有那么复杂,感谢您的帮助<3