是否有可能自动从网站上抓取文章--Python&美丽的汤

时间:2018-04-25 09:23:56

标签: python web-scraping beautifulsoup scrape scraper

尝试制作一个脚本来从不同的网站上抓取一篇或两篇文章(文章网址),我能够创建一个使用BeautifulSoup获取网站HTML的Python脚本,通过其类名找到网站的Navbar菜单,并循环遍历每个网站部分,问题是每个网站都有一个不同的类名称或XAV为Navbar菜单及其部分..

有没有办法让脚本尽可能少地进行人为干预,适用于多个网站?

任何建议都非常受欢迎,

由于

1 个答案:

答案 0 :(得分:1)

做到了,我只需要使用Python和Selenium,每个网站的Navbar元素使用一个Xpath,不同网站页面上的所有类型的文章使用另一个Xpath,将所有内容保存在数据库中,其余的都进行了自定义对于我们的特定需求,最终并没有那么复杂,感谢您的帮助<3