Question

我是python的新手。我想从CNN网站上提取一些文字我想使用python win32com模块。
编辑：关于[为什么选择win32com]
因为网站上的javascript ...我想过使用win32com;我已经寻找其他解决方案，但在我的要求方面没有成功。事实上，我想使用机械化或类似的解决方案，但这对我来说不起作用。

是否可以将 beautifulsoup 或 lxml 与 win32com ？
任何知道如何从cnn webiste中提取一些文本的人，请帮帮我！具体来说，我想从'赞助商链接'' Money '

中提取cnn网站上的文字
import win32com.client from time import sleep from win32com.client import Dispatch import urllib,urllib2 from BeautifulSoup import BeautifulSoup ie = Dispatch("InternetExplorer.Application") ie.Visible = 1 ie.Navigate("http://www.cnn.com") sleep(15) ie.Quit()

Answer 1

您是否正在尝试解析cnn网站上的一些文字？

您可以使用

获取该页面

import urllib
f = urllib.urlopen('http://www.cnn.com')
page = f.read()
f.close()

然后，您可以使用BeautifulSoup在页面上找到您要查找的内容。

为什么选择win32com，发送等？

用python的win32com和解析html问题

1 个答案: