Python BeautifulSoup提取PHP链接

时间:2014-02-13 14:51:10

标签: python python-2.7 beautifulsoup mechanize

我在使用BeautifulSoup的Python时遇到了问题。我需要提取页面上以“.php”结尾的所有文件,但它们也必须是本地文件。他们不能来自其他网站。这就是我到目前为止所做的:

    from bs4 import BeautifulSoup
    import mechanize
    import sys

    url = sys.argv[1]

    br = mechanize.Browser()
    code = br.open(url)
    html = code.read()
    soup = BeautifulSoup(html)

这是我不知所措的地方。我想用 soup.findall 来获取所有“a href”标签。

2 个答案:

答案 0 :(得分:1)

试试这个,

page=urllib2.urlopen(url)
soup=BeautifulSoup(page.read())

for a in soup.findAll('a'):
  if a['href'].endswith('.php'):
     print a['href']

答案 1 :(得分:1)

import glob,os
path=input("Enter Your Path in "" =")+"//"
print path
for i in glob.glob(os.path.join(str(path),"*.php")):
                   print i