我想删除50,000条wikipages中的一行。因为该行是一个死的外部网页链接。例如,看看this wiki page. 该线由两部分组成。一个是开始文本另一个是URL。 网址因每个单词而异,但文本始终以'*தமிழ்இணையப்பல்கலைக்கழககழக்'开头。如何删除以功能开头的行?
Sample code :
#!/usr/bin/env python
#-*- coding: utf-8 -*-
wikiPage = '''==உசாத்துணை==
* தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில் [http://www.tamilvu.org/slet/servlet/o33.o33searh?CboSelect=1&TxtSearch=abdominal+muscle&OptSearch=&id=All abdominal muscle]'''
# part1 is a line of 'starts with'
part1 = '* தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில் '
part2 = '[http://www.tamilvu.org/slet/servlet/o33.o33searh?CboSelect=1&TxtSearch=abdominal+muscle&OptSearch=&id=All abdominal muscle]'
print(wikiPage.replace('part1',''))
如何删除part2呢?请注意,part2是一个网址,每个维基页面都不同。
答案 0 :(得分:0)
创建一个新的列表(或者你存储行),然后遍历旧列表,只添加不以该字符串开头的行。
START_OF_LINE = "*தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில்"
new_lines = [] # or however you store lines
for line in lines:
if line.startswith(START_OF_LINE):
pass
else:
new_lines.append(line)
答案 1 :(得分:0)
s_line = '*தமிழ் இணையப் பல்கலைக்கழக அகரமுதலியில்'
lines = [line for line in lines if not line.startswith(s_line)]