在我开始写自己的网站之前,我需要抓住(经批准)网站 什么是刮取网站的最佳工具/方式,既快速(多线程)又易于学习?
答案 0 :(得分:1)
看看this recent blog post by Lee Holmes。他使用Powershell和HTML Agility Pack编写了一个非常酷的屏幕刮刀。
答案 1 :(得分:0)
考虑使用TestPlan。它具有无显示浏览器模式,可快速进行刮擦。脚本语言非常简单,并且可以快速学习基础知识。
答案 2 :(得分:0)
TagSoup是一个用Java编写的兼容SAX的解析器,它解析了野外发现的HTML:糟糕,讨厌和野蛮,尽管通常很短。
答案 3 :(得分:0)
你有没看过这个 - https://scraperwiki.com/