我有一个文档,它被读作元组列表的列表。
对于每个元组中的每个元素都是@Component({
templateUrl: './posts.component.html',
providers: [
IdWatchService
]
})
export class PostsComponent {
constructor(idWatchService: IdWatchService) {
idWatchService.idChange.subscribe(id => {
// Load data for the new ID and refresh the view
});
}
}
对。
基本上,文档是一个句子列表,其中每个句子都是元组列表。
我试图忽略出现次数少于10的单词,并构建一个尊重前一格式的新文档。 为此,我使用此代码:
(word, label)
我的问题是lnewdata正处于以下格式:
i=0;
j=0;
dictWords=dict()
for sentence in ldata:
for word in sentence:
j=j+1
if word[0] not in dictWords:
dictWords[word[0]]=1
i=i+1
else:
dictWords[word[0]]=1+dictWords[word[0]]
ldata=[[("the","det"),("boy","noun"),("is",'verb'),("ugly","adj")], [("I","Pronoun"), ("am","verb") ("here" ,"Place")]
lnewdata = []
i = 0
for sentence in ldata:
newSent = []
for word in sentence:
if dictWords[word[0]] < 10:
newSent.append(("unk","unk"))
#dictWords is a dictionnary containing each word's occurences
else:
newSent.append(word)
i = i + 1
lnewdata.extend(newSent)
您建议如何解决此问题?
答案 0 :(得分:1)
试图理解你的问题,我几乎可以找出以下内容。
您的文档中包含多个元组,如(word,label)
您希望出现次数超过10的字词并创建新列表。
我不明白你为什么试图追加出现次数小于10的元组。
这是我能想出的代码。
lnewdata=[]
i=0;
for sentence in ldata:
newSent=[]
for word in sentence:
if dictWords.count(word[0])>10:
newSent.append((word[0],word[1]))
lnewdata = list(newSent)