Question

我一直致力于使用PHP中的正则表达式从网站的特定页面中删除数据的程序。

     <?php 
     ini_set("user_agent", "PHP");
     $url = "http://www.example.com/page.html";
     $output = file_get_contents($url);
     preg_match('#<h1 class="title" itemprop="name">(.*)</h1>#', $output, $match);
     echo $match[1] ."<br>";
     ?>

如何创建一个程序来获取网站的所有现有链接以从中获取数据？而不是打开浏览器中的每个链接并手动插入，这比手动输入数据而不是报废更糟糕。

我了解JavaScript，Python和PHP，可以使用这三种语言中的任何一种。

Answer 1

import bs4
for link in bs4.BeautifulSoup(urllib2.urlopen(target_url).read()).find_all("a"):
    print link

如何获取网站所有页面的链接以进行数据报废

1 个答案: