使用Python从网站读取文本文件

时间:2017-12-16 03:57:50

标签: python-3.x web-scraping beautifulsoup

您好我有问题我想从网上获取所有数据,但这太大了,无法将其保存到变量中。我保存数据,如下所示:

r = urlopen("http://download.cathdb.info/cath/releases/all-releases/v4_2_0/cath-classification-data/cath-domain-list-v4_2_0.txt")
r = BeautifulSoup(r, "lxml")
r = r.p.get_text()
some operations

在我必须从这个网站获取数据之前,这一点很有用: http://download.cathdb.info/cath/releases/all-releases/v4_2_0/cath-classification-data/cath-domain-description-file-v4_2_0.txt

当我在此页面上运行上述相同的代码时,我的程序停在

r = BeautifulSoup(r, "lxml")

这是永远的,没有任何事情发生。我不知道如何将这些整个数据保存到文件中以进行搜索关键字并打印它们的一些操作。我无法将其保存到文件中,我必须从网站上获取此信息。

我将非常感谢你的每一次帮助。

1 个答案:

答案 0 :(得分:1)

我认为下面的代码可以做你想要的。就像@alecxe的评论中提到的那样,你不需要使用BeautifulSoup。从在线文本文件中检索内容时,此问题应该是一个问题,并在此In Python, given a URL to a text file, what is the simplest way to read the contents of the text file?

中得到解答
import urllib.request import urlopen

r = urlopen("http://download.cathdb.info/cath/releases/all-releases/v4_2_0/cath-classification-data/cath-domain-list-v4_2_0.txt")

for line in r:
    do_somthing()