使用Python脚本获取标题标签的内容

时间:2011-08-10 21:13:13

标签: python mysql html sql

我想在Python中制作一个真正的脚本,从指定网页的标题标签中获取内容,然后将它们放入MySQL数据库。

我对Python的经验很少(而且我的意思是非常),但这需要为我的项目完成。我怎样才能以最简单的方式做到这一点?

我希望你能理解我想要问的内容。

2 个答案:

答案 0 :(得分:5)

  1. 研究urllib2以了解如何下载网页。
  2. 研究BeautifulSoup来解析HTML并提取标题。
  3. 研究Python Database API Specification以插入行 MySQL数据库。

  4. 以下是一些示例代码,可帮助您入门:

    import urllib2
    import BeautifulSoup
    import MySQLdb
    
    f = urllib2.urlopen('http://www.python.org/')
    soup=BeautifulSoup.BeautifulSoup(f.read())
    title=soup.find('title')
    print(title.string)
    
    connection=MySQLdb.connect(
        host='HOST',user='USER',
        passwd='PASS',db='MYDB')
    cursor=connection.cursor()
    
    sql='''CREATE TABLE IF NOT EXISTS foo (
               fooid int(11) NOT NULL AUTO_INCREMENT,
               title varchar(100) NOT NULL,
               PRIMARY KEY (fooid)
           )'''
    cursor.execute(sql)
    
    sql='INSERT INTO foo (title) VALUES (%s)'
    args=[title.string]
    cursor.execute(sql,args)
    cursor.close()
    connection.close()
    

答案 1 :(得分:1)

使用urllib2打开网页。然后使用正则表达式解析返回的文本以检索标题。