我有两个数据框。一个包含一长串使用不同语言的字符串,另一个包含第一个所用语言的标签。
train_data.head()
string
0 Klement Gottwaldi surnukeha palsameeriti ning ...
1 Sebes, Joseph; Pereira Thomas (1961) (på eng)....
2 भारतीय स्वातन्त्र्य आन्दोलन राष्ट्रीय एवम क्षे...
3 Après lo cort periòde d'establiment a Basilèa,...
4 ถนนเจริญกรุง (อักษรโรมัน: Thanon Charoen Krung...
并且:
labels.head()
language
0 est
1 swe
2 mai
3 oci
4 tha
将两个数据帧子集化为仅具有西班牙语或英语字符串的最佳方法是什么?第二个数据框中的语言等于“ en”或“ es”。
答案 0 :(得分:1)
您可以加入两个数据框,例如:
joinedDf = train_data.join(labels)
然后
joinedDf[(joinedDf['language'] == 'en' )|(joinedDf['language'] == 'es' )]
应该只为您提供英语和西班牙语文本。