以编程方式下载php生成的网页

时间:2012-12-12 11:51:59

标签: php dictionary download

我需要下载在线印地语语言词典以供离线使用。字典中的每个单词都有一个php生成的页面。这些页面的URL如下: http://pustak.org/home.php?mean=X,其中X代表一个数字。

因此,可以通过转到http://pustak.org/home.php?mean=1找到字典中的第一个单词,第二个单词是http://pustak.org/home.php?mean=2,依此类推。

如何以编程方式下载所有这些页面并将其另存为单独的html文件?

PS:如果您想知道,我这样做是因为我需要一本印地语词典在旅途中使用我的iPod Touch离线(因为Touch没有手机数据)。我已经尝试了一大堆印地语词典应用程序,它们都没有接近这个免费在线词典的质量和定义计数。所以我的计划是将整个内容下载为html文件,将它们全部存储在支持全文搜索的iOS文件系统应用程序中,并且我有自己的离线词典......

帮助表示赞赏!

2 个答案:

答案 0 :(得分:1)

略有不同的方法,我个人会使用HTTrack

从主页:

  

HTTrack是免费的(GPL,自由/免费软件),易于使用离线   浏览器实用程序。

     

它允许您从Internet下载万维网站点   本地目录,递归建立所有目录,获取HTML,   图像以及从服务器到计算机的其他文件。的HTTrack   安排原始网站的相对链接结构。只需打开一个   浏览器中“镜像”网站的页面,您可以浏览   站点从链接到链接,就像您在线查看一样。 HTTrack可以   还会更新现有的镜像站点,并恢复中断   下载。 HTTrack完全可配置,并提供集成的帮助   系统

根据该网站,它支持Windows 2000 / XP / Vista / Seven和几种Linux版本。

我假设您可以将下载的文件导入到您提到的iOS应用中。

答案 1 :(得分:0)

您可以使用file_get_contents

进行尝试
$max = 100000 //total num of words to get

for($cont=1; $cont<$max; $cont++){
    $sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont');

    if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){
        echo "error with word number".$cont;
        die();
    }
}