抓住itunes.apple.com

时间:2010-08-03 19:31:33

标签: curl app-store

我正在试图抓住苹果itunes网站。我得到二进制格式的输出。 例如

curl -A“mozilla / 5.0”http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8

返回二进制文件。

有人可以告诉我我错过了什么吗?

由于

1 个答案:

答案 0 :(得分:1)

您正在获取二进制文件,因为您引用的页面没有返回HTML / XML,它返回Apple WebObject。来自wget

wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
--2010-08-03 12:38:14--  http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
Resolving itunes.apple.com... 17.250.237.16
Connecting to itunes.apple.com|17.250.237.16|:80... connected.
HTTP request sent, awaiting response... 200 Apple WebObjects
Length: 22900 (22K) [text/html]
Saving to: `id327765949?mt=8'

100%[======================================>] 22,900      --.-K/s   in 0.05s   

2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900]

有关详细信息,请参阅good old Wikipedia,但如果您要抓取它,则可能需要使用模拟浏览器的内容,从而可以解释它 - 也许watir可以正常工作。