我正试图制作一个简单的搜索引擎,只是想知道它是如何工作的。我正在遵循有关如何使用php和mySQL进行操作的旧教程。
但是,它没有说明如何创建urllist.txt文件。我根据需要下载了Quantcast-Top-Million.txt文件,但对于如何创建网址列表以及与Quantcast-Top-Million.txt文件的关系,我仍然感到困惑。
$file_handle = fopen("Quantcast-Top-Million.txt",
"r");
while (!feof ($file_handle)){
$line=fgets($file_handle);
if(preg_match('/ˆ\d+/',$line)){
$tmp=explode("\t",$line);
$rank=trim($tmp[0]);
$url=trim($tmp[1]);
if($url != 'Hidden profile') {
echo $i ;
}
}
}
fclose($file_handle);
$file_handle = fopen("urllist.txt", "r");
while (!feof($file_handle)) {
$url = trim(fgets($file_handle));
$content = file_get_contents($url);
$document = array($url,$content);
$serialized = serialize($document);
$fp = fopen('./documents/'.md5($url), 'w');
fwrite($fp, $serialized); fclose($fp);
}
fclose($file_handle);