如何获取网站所有页面的链接以进行数据报废

时间:2016-04-28 23:57:07

标签: javascript php

我一直致力于使用PHP中的正则表达式从网站的特定页面中删除数据的程序。

     <?php 
     ini_set("user_agent", "PHP");
     $url = "http://www.example.com/page.html";
     $output = file_get_contents($url);
     preg_match('#<h1 class="title" itemprop="name">(.*)</h1>#', $output, $match);
     echo $match[1] ."<br>";
     ?>

如何创建一个程序来获取网站的所有现有链接以从中获取数据?而不是打开浏览器中的每个链接并手动插入,这比手动输入数据而不是报废更糟糕。

我了解JavaScript,Python和PHP,可以使用这三种语言中的任何一种。

1 个答案:

答案 0 :(得分:0)

import bs4
for link in bs4.BeautifulSoup(urllib2.urlopen(target_url).read()).find_all("a"):
    print link