我想知道是否有与页面交互的网页抓取库(尚未选择语言,它将取决于库)?
我的意思是,例如我们有多个页面分页的信息,是否可以找到一个与网页交互并获取所有信息的库?
答案 0 :(得分:3)
任何语言都可以做到这一点,并且有很多适合的框架。考虑允许您使用XPath或CSS选择链接的框架,然后对其运行“单击”方法。请注意,执行此操作的框架通常不会执行任何单击 - 它们只是在高度简化的浏览器环境中按照链接进行操作。单击分页链接时,此功能非常有用。
也就是说,有些网页使用JavaScript进行分页。一般来说,这是不必要的,但是如果你想要抓住这些网站,你需要在底层的AJAX调用上使用一个简单的刮刀,或者你需要使用无头浏览器,以便你可以执行JavaScript 。这要慢得多,因为它更复杂。
答案 1 :(得分:1)
cURL怎么样?
您可以直接从命令行或使用(几乎)任何现代编程语言来使用它。