Question

我需要下载在线印地语语言词典以供离线使用。字典中的每个单词都有一个php生成的页面。这些页面的URL如下： http://pustak.org/home.php?mean=X，其中X代表一个数字。

因此，可以通过转到http://pustak.org/home.php?mean=1找到字典中的第一个单词，第二个单词是http://pustak.org/home.php?mean=2，依此类推。

如何以编程方式下载所有这些页面并将其另存为单独的html文件？

PS：如果您想知道，我这样做是因为我需要一本印地语词典在旅途中使用我的iPod Touch离线（因为Touch没有手机数据）。我已经尝试了一大堆印地语词典应用程序，它们都没有接近这个免费在线词典的质量和定义计数。所以我的计划是将整个内容下载为html文件，将它们全部存储在支持全文搜索的iOS文件系统应用程序中，并且我有自己的离线词典......

帮助表示赞赏！

Answer 1

略有不同的方法，我个人会使用HTTrack

从主页：

HTTrack是免费的（GPL，自由/免费软件），易于使用离线   浏览器实用程序。

它允许您从Internet下载万维网站点   本地目录，递归建立所有目录，获取HTML，   图像以及从服务器到计算机的其他文件。的HTTrack   安排原始网站的相对链接结构。只需打开一个   浏览器中“镜像”网站的页面，您可以浏览   站点从链接到链接，就像您在线查看一样。 HTTrack可以   还会更新现有的镜像站点，并恢复中断   下载。 HTTrack完全可配置，并提供集成的帮助   系统

根据该网站，它支持Windows 2000 / XP / Vista / Seven和几种Linux版本。

我假设您可以将下载的文件导入到您提到的iOS应用中。

Answer 2

您可以使用file_get_contents：

进行尝试

$max = 100000 //total num of words to get

for($cont=1; $cont<$max; $cont++){
    $sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont');

    if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){
        echo "error with word number".$cont;
        die();
    }
}

以编程方式下载php生成的网页

2 个答案: