我正在为研究项目寻找来自Web 2.0网站的大量(至少100k)数据。我正在考虑使用公开的API来获取数据,但在这种情况下会更好地废弃工作吗?
API很好(与编写刮刀相比,工作量少),但考虑到通常有时间/通话限制,我真的不知道需要花多少时间来收集那么多数据。我并不是说刮擦没有限制;只是我很好奇这是完成工作的更好方法。
答案 0 :(得分:2)
只要你可以,就使用API。它更好。但是,当然有些情况下你被迫使用刮擦。 API可能会被限制为每天几个请求。但在你这样做之前要尊重开发人员,解释你想要做什么,也许他们会制定规则来帮助你的项目。如果你是长期做某事,一定要和开发人员谈谈,至少要做一笔交易,这样你就不会受到限制。
答案 1 :(得分:2)
如果网站提供API,请使用它。
它更简单,更通用,更合法。如果该网站很受欢迎,您经常会找到您正在使用的语言的包装。
当然,如果你开发一个刮刀,你就没有限制,但可能该网站不允许被刮掉,这正是他们为用户/开发者提供API 的原因。
关于 Jeffrey04 评论
让我们看看......这是道德的事情。如果需要,您可以多次获取该数据量而不会被阻止。您可以随时更改用户代理,在 N 请求后更改IP(当然,以编程方式完成所有这些操作),并使用 Cookie 进行一些操作,但那不是主意。我的意思是不使用网站抓取的建议不是因为被禁止访问网站。
答案 2 :(得分:1)
如果有API,请使用它。一开始,刮痧(不是报废)似乎是一个好主意,但这是一个难以维持的噩梦。