python在txt文件中保存url列表

时间:2011-05-31 12:13:33

标签: python

您好我正在尝试创建一个python函数来保存.txt文件中的URL列表

示例:访问http://forum.domain.com/并在.txt文件中保存所有viewtopic.php?t=字词网址

http://forum.domain.com/viewtopic.php?t=1333
http://forum.domain.com/viewtopic.php?t=2333

我使用此功能但不保存 我是python中的新手,有人可以帮助我创建这个

web_obj = opener.open('http://forum.domain.com/')
data = web_obj.read()

fl_url_list = open('urllist.txt', 'r')
url_arr = fl_url_list.readlines()
fl_url_list.close()

1 个答案:

答案 0 :(得分:4)

这远不是微不足道的,可能会有很多极端情况(我想你所指的页面是一个网页)

为了给你一些指示,你需要:

  • 下载网页:您已经在进行(data
  • 提取网址:这很难,很可能,您需要使用html解析器,提取<a>标记,获取href属性并将其放入列表中。然后过滤该列表,只有你喜欢的格式化的URL(用viewtopic说)。假设您已将其纳入urlList
  • 然后打开一个用于编写文本的文件(因此wt,而不是r)。
  • 撰写内容f.write('\n'.join(urlList))
  • 关闭文件

我建议您在遇到特定问题时尝试按照这些步骤提出相关问题。