在python中获取URL的纯文本数据

时间:2013-07-21 07:03:23

标签: python url fetch plaintext

我想从给定的URL获取纯文本(例如,没有html标签和实体)。 我应该使用什么库来尽快完成?

我已经尝试过(可能有更快或更好的东西):

import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>

由于

2 个答案:

答案 0 :(得分:1)

您可以使用HTML2Text如果该网站不适合您,您可以转到HTML2Text github Repo并获取它用于Python

或者试试这个:

import urllib
from bs4 import*

html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text

我不知道它是否摆脱了所有的j和东西,但它摆脱了HTML

进行一些谷歌搜索还有其他多个与此类似的问题

也可以看看Read2Text

答案 1 :(得分:0)

在Python 3中,您可以将HTML提取为字节,然后转换为字符串表示形式:

from urllib import request

text = request.urlopen('myurl.com').read().decode('utf8')