如何通过python3删除带有函数的启动行

时间:2018-06-03 10:06:19

标签: python python-3.x wikipedia

我想删除50,000条wikipages中的一行。因为该行是一个死的外部网页链接。例如,看看this wiki page. 该线由两部分组成。一个是开始文本另一个是URL。 网址因每个单词而异,但文本始终以'*தமிழ்இணையப்பல்கலைக்கழககழக்'开头。如何删除以功能开头的行?

Sample code :

#!/usr/bin/env python
#-*- coding: utf-8 -*-
wikiPage = '''==உசாத்துணை== 
* தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில்  [http://www.tamilvu.org/slet/servlet/o33.o33searh?CboSelect=1&TxtSearch=abdominal+muscle&OptSearch=&id=All abdominal muscle]'''

# part1 is a line of  'starts with'
part1 = '* தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில் '
part2 = '[http://www.tamilvu.org/slet/servlet/o33.o33searh?CboSelect=1&TxtSearch=abdominal+muscle&OptSearch=&id=All abdominal muscle]'
print(wikiPage.replace('part1',''))

如何删除part2呢?请注意,part2是一个网址,每个维基页面都不同。

2 个答案:

答案 0 :(得分:0)

创建一个新的列表(或者你存储行),然后遍历旧列表,只添加不以该字符串开头的行。

START_OF_LINE = "*தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில்"
new_lines = [] # or however you store lines

for line in lines:
    if line.startswith(START_OF_LINE):
        pass
    else:
        new_lines.append(line)

答案 1 :(得分:0)

s_line = '*தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில்'

lines = [line for line in lines if not line.startswith(s_line)]