我需要下载在线印地语语言词典以供离线使用。字典中的每个单词都有一个php生成的页面。这些页面的URL如下:
http://pustak.org/home.php?mean=X
,其中X代表一个数字。
因此,可以通过转到http://pustak.org/home.php?mean=1
找到字典中的第一个单词,第二个单词是http://pustak.org/home.php?mean=2
,依此类推。
如何以编程方式下载所有这些页面并将其另存为单独的html文件?
PS:如果您想知道,我这样做是因为我需要一本印地语词典在旅途中使用我的iPod Touch离线(因为Touch没有手机数据)。我已经尝试了一大堆印地语词典应用程序,它们都没有接近这个免费在线词典的质量和定义计数。所以我的计划是将整个内容下载为html文件,将它们全部存储在支持全文搜索的iOS文件系统应用程序中,并且我有自己的离线词典......帮助表示赞赏!
答案 0 :(得分:1)
略有不同的方法,我个人会使用HTTrack
从主页:
HTTrack是免费的(GPL,自由/免费软件),易于使用离线 浏览器实用程序。
它允许您从Internet下载万维网站点 本地目录,递归建立所有目录,获取HTML, 图像以及从服务器到计算机的其他文件。的HTTrack 安排原始网站的相对链接结构。只需打开一个 浏览器中“镜像”网站的页面,您可以浏览 站点从链接到链接,就像您在线查看一样。 HTTrack可以 还会更新现有的镜像站点,并恢复中断 下载。 HTTrack完全可配置,并提供集成的帮助 系统
根据该网站,它支持Windows 2000 / XP / Vista / Seven和几种Linux版本。
我假设您可以将下载的文件导入到您提到的iOS应用中。
答案 1 :(得分:0)
您可以使用file_get_contents
:
$max = 100000 //total num of words to get
for($cont=1; $cont<$max; $cont++){
$sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont');
if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){
echo "error with word number".$cont;
die();
}
}