应用错误收集

是否有可能自动从网站上抓取文章--Python＆amp;美丽的汤

时间：2018-04-25 09:23:56

标签： python web-scraping beautifulsoup scrape scraper

尝试制作一个脚本来从不同的网站上抓取一篇或两篇文章（文章网址），我能够创建一个使用BeautifulSoup获取网站HTML的Python脚本，通过其类名找到网站的Navbar菜单，并循环遍历每个网站部分，问题是每个网站都有一个不同的类名称或XAV为Navbar菜单及其部分..

有没有办法让脚本尽可能少地进行人为干预，适用于多个网站？

任何建议都非常受欢迎，

由于

1 个答案:

答案 0 :(得分：1)

做到了，我只需要使用Python和Selenium，每个网站的Navbar元素使用一个Xpath，不同网站页面上的所有类型的文章使用另一个Xpath，将所有内容保存在数据库中，其余的都进行了自定义对于我们的特定需求，最终并没有那么复杂，感谢您的帮助<3