用python的win32com和解析html问题

时间:2009-10-24 23:29:24

标签: python parsing

我是python的新手。我想从CNN网站上提取一些文字 我想使用python win32com模块。
编辑:关于[为什么选择win32com]
因为网站上的javascript ...我想过使用win32com;我已经寻找其他解决方案,但在我的要求方面没有成功。事实上,我想使用机械化或类似的解决方案,但这对我来说不起作用。

是否可以将 beautifulsoup lxml win32com
任何知道如何从cnn webiste中提取一些文本的人,请帮帮我! 具体来说,我想从'赞助商链接'' Money '

中提取cnn网站上的文字
import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup

ie = Dispatch("InternetExplorer.Application")   
ie.Visible = 1   
ie.Navigate("http://www.cnn.com") 
sleep(15)
ie.Quit()

1 个答案:

答案 0 :(得分:1)

您是否正在尝试解析cnn网站上的一些文字?

您可以使用

获取该页面
import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()

然后,您可以使用BeautifulSoup在页面上找到您要查找的内容。

为什么选择win32com,发送等?