如何删除文件中多次出现的单词,只保留第一个单词并删除克隆。
答案 0 :(得分:3)
一个简单的算法就是迭代输入中的所有单词,将每个单词添加到您之前看到的一组单词中。如果单词已经在集合中,请将其删除。
以下是一个例子:
seen_words = set()
for word in words:
if word not in seen_words:
print word
seen_words.add(word)
答案 1 :(得分:0)
你也可以使用这样的字典:
mydict = {}
mylist = [1, 2, 2, 3, 4, 5, 5]
for item in mylist:
mydict[item] = ""
for item in mydict:
print item
输出:
1
2
3
4
5
但当然,您需要将其整合到文件读/写中。
答案 2 :(得分:0)
您可以使用一套:
set('这些都是单词都是这些'.split())
输出: '这些','the','all','are','words'
答案 3 :(得分:0)
fileText = "some words with duplicate words"
fileWords = fileText.split(" ")
output = fileWords[0]
words = [output]
for word in fileWords:
if word not in words:
output += " "+word
words.append(word)
答案 4 :(得分:0)
如果您的文件不是很大,
word='word'
data=open("file").read()
ind = data.find(word)
print data[:ind+len(word)] + data[ind:].replace(word,"")