我试图将utf-8中的两个文件,gold_standard_1.txt与2553行进行比较,将output_test1.txt与2476行进行比较,两者都无序,如果一个文件中的一行与另一个文件中的另一行匹配则进行计数文本文件(不一定是相同的行号)。
我一直在尝试许多替代品,比如拉链,十字路口等,但不起作用。
样品:
gold_standard_1.txt:
En Prep
total Adj
, Punt
los Det
organizadores NC
de Prep
la Det
feria NC
esperan V
en Prep
La_Habana NP
a Prep
por_lo_menos Adv
150 Num
editoriales NC
de Prep
Europa NP
, Punt
América NP
y Conj
Asia NP
, Punt
donde Pron
por Prep
primera Adj
vez NC
concurrirán V
representantes NC
de Prep
Alemania NP
y Conj
Japón NP
, Punt
además_de Prep
las Det
habituales Adj
de Prep
México NP
, Punt
Venezuela NP
, Punt
Argentina NP
y Conj
España NP
, Punt
según Prep
dijo V
el Det
presidente NC
del Prep
Instituto_Cubano_del_Libro NP
, Punt
Pablo_Pacheco NP
. Fin
Para Prep
la Det
comercialización NC
la Det
feria NC
dispondrá V
de Prep
cerca_de Prep
300.000 Num
ejemplares Adj
de Prep
México NP
, Punt
Santo_Domingo NP
, Punt
Ecuador NP
, Punt
Venezuela NP
, Punt
Argentina NP
, Punt
Chile NP
, Punt
España_e_Inglaterra NP
. Fin
Durante Prep
la Det
feria NC
se Pron
desarrollará V
un Det
programa NC
para Prep
la Det
lectura NC
de Prep
textos NC
, Punt
tertulias NC
, Punt
encuentros NC
de Prep
escritores NC
y Conj
la Det
presentación NC
de Prep
una Det
muestra V
especializada Adj
dedicada Adj
al Prep
medio_ambiente NC
y Conj
la Det
alimentación NC
. Fin
Entre Prep
los Det
invitados NC
figuran V
el Det
director NC
general Adj
del Prep
Centro_Regional_del_Libro_para_América_Latina NP
y Conj
el Det
Caribe NP
, Punt
José_Salgar NP
, Punt
la Det
presidenta NC
de Prep
la Det
Dirección_del_Libro_de_la_UNESCO NP
, Punt
Milagros_del_Corral NP
y Conj
Alfredo_Weisflog NP
, Punt
quien Pron
encabeza V
el Det
grupo NC
interamericano Adj
de Prep
editores NC
. Fin
También Adv
ha VAux
sido V
anunciada Adj
la Det
presencia NC
de Prep
varios Det
autores NC
latinoamericanos Adj
como Conj
los Det
argentinos NC
Juan_Gelman NP
, Punt
Adolfo_Colombé NP
y Conj
Norberto_Galusso NP
, Punt
la Det
salvadoreña NC
Claribel_Alegría NP
, Punt
la Det
chilena NC
Stela_Díaz_Varín NP
y Conj
el Det
mexicano NC
Eraclio_Zepeda NP
. Fin
Además Adv
, Punt
en Prep
la Det
feria NC
serán V
homenajeados NC
los Det
escritores NC
cubanos Adj
Dulce_María_Loynaz NP
, Punt
ganadora Adj
del Prep
premio NC
" Punt
Cervantes NC
" Punt
de Prep
literatura NC
en Prep
1992 Num
, Punt
Eliseo_Diego NP
, Punt
premiado Adj
con Prep
el Det
galardón NC
" Punt
Juan_Rulfo NP
" Punt
1993 Num
, Punt
y Conj
el Det
recién Adv
fallecido V
Severo_Sarduy NP
. Fin
La Det
feria NC
es V
convocada Adj
cada Det
dos Det
años NC
y Conj
en Prep
su Det
programación NC
incluye V
la Pron
entrega V
del Prep
Premio_Nacional_de_Literatura NP
y Conj
el Det
de Prep
la Det
Crítica NP
, Punt
que Pron
proclama NC
los Det
diez NC
mejores Adj
títulos NC
publicados Adj
el Det
año NC
pasado Adj
. Fin
Los Det
cancilleres NC
de Prep
Centroamérica NP
y Conj
la Det
Comunidad_Económica_del_Caribe NP
( Fin
CARICOM NP
) Fin
celebrarán V
su Det
tercera Adj
reunión NC
durante Prep
la Det
primera Adj
semana NC
de Prep
marzo NC
, Punt
en Prep
Costa_Rica NP
, Punt
para Prep
analizar V
asuntos NC
comunes Adj
a Prep
ambas Det
regiones NC
y Conj
la Det
comercialización NC
bananera Adj
con Prep
la Det
Unión_Europea NP
( Fin
UE NP
) Fin
. Fin
El Det
canciller NC
costarricense Adj
, Punt
Bernd_Niehaus NP
, Punt
dijo V
que Conj
en Prep
esta Det
reunión NC
continuará V
el Det
análisis NC
conjunto NC
de Prep
diversas Det
cuestiones NC
, Punt
como Conj
en Prep
las Det
dos Det
anteriores Adj
reuniones NC
, Punt
celebradas Adj
en Prep
San_Pedro_Sula NP
( Fin
Honduras NC
) Fin
, Punt
en Prep
1992 Num
, Punt
y Conj
en Prep
Kingston NP
, Punt
la Det
capital NC
jamaicana Adj
, Punt
el Det
año NC
pasado Adj
. Fin
Niehaus NP
consideró V
que Conj
la Det
comercialización NC
bananera Adj
no Adv
estará V
ausente Adj
de Prep
esta Det
reunión NC
, Punt
por Prep
la Det
importancia NC
que Pron
reviste V
para Prep
la Det
mayoría NC
de Prep
naciones NC
centroamericanas Adj
y Conj
caribeñas Adj
, Punt
muchas Pron
de Prep
las Det
cuales Pron
dependen V
en_gran_medida Adv
de Prep
la Det
exportación NC
de Prep
esta Det
fruta NC
. Fin
Las Det
restricciones NC
impuestas Adj
por Prep
la Det
UE NP
a Prep
la Det
importación NC
de Prep
esta Det
fruta NC
desde Prep
julio NC
pasado Adj
y Conj
que Pron
afectan V
a Prep
América_Latina NP
favorecen V
a Prep
varios Pron
de Prep
los Det
países NC
del Prep
CARICOM NP
, Punt
que Pron
fueron V
colonias NC
europeas Adj
. Fin
El Det
canciller NC
dijo V
que Conj
se Pron
debe V
buscar V
un Det
acuerdo NC
sobre Prep
comercialización NC
del Prep
banano NC
con Prep
la Det
UE NP
que Pron
no Adv
afecte V
a Prep
la Det
región NC
caribeña Adj
ni Conj
a Prep
los Det
productores NC
de Prep
Latinoamérica NP
, Punt
quienes Pron
han VAux
visto V
reducir V
sus Det
exportaciones NC
de Prep
la Det
fruta NC
de Prep
2,5 Num
a Prep
2 Num
millones NC
de Prep
toneladas NC
por Prep
las Det
barreras NC
europeas Adj
. Fin
Los Det
países NC
productores Adj
de Prep
café NC
suave Adj
de Prep
América_Latina NP
se Pron
reunirán V
mañana NC
viernes NC
en Prep
Guatemala NP
para Prep
analizar V
los Det
primeros Adj
resultados NC
del Prep
plan NC
de Prep
retención NC
y Conj
el Det
comportamiento NC
de Prep
las Det
exportaciones NC
del Prep
grano NC
en Prep
el Det
mercado NC
internacional Adj
. Fin
La Det
Asociación_Nacional_de_Café NP
( Fin
ANACAFE NP
) Fin
de Prep
Guatemala NP
indicó V
que Conj
la Det
reunión NC
, Punt
a Prep
la Det
que Pron
asistirán V
Centroamérica NP
y Conj
Colombia NP
, Punt
servirá V
también Adv
para Prep
analizar V
el Det
Convenio_Internacional_de_Café NP
y Conj
para Prep
revisar V
los Det
avances NC
de Prep
la Det
creación NC
de Prep
la Det
Asociación_de_Países_Productores_de_Café NP
( Fin
APC NP
) Fin
. Fin
Los Det
representantes NC
evaluarán V
el Det
impacto NC
que Conj
ha VAux
tenido V
el Det
plan NC
de Prep
retención NC
en Prep
el Det
precio NC
del Prep
grano NC
, Punt
que Pron
entró V
en Prep
vigor NC
el Det
1_de_octubre Data
pasado Adj
, Punt
y Conj
cómo Pron
ha VAux
afectado V
a Prep
la Det
posición NC
de Prep
Brasil NP
, Punt
que Pron
aún Adv
no Adv
lo Pron
acepta V
completamente Adv
. Fin
De Prep
acuerdo NC
con Prep
ANACAFE NP
, Punt
los Det
seis Det
países NC
han VAux
retenido V
el Det
20 Num
por Prep
ciento NC
de Prep
las Det
exportaciones NC
, Punt
lo Det
que Pron
ha VAux
permitido V
que Conj
el Det
quintal NC
( Fin
de Prep
50 Num
kilos NC
) Fin
, Punt
puesto NC
en Prep
Nueva_York NP
, Punt
aumente V
de Prep
60 Num
a Prep
75 Num
dólares NC
. Fin
Con_relación_al Prep
acuerdo NC
de Prep
creación NC
de Prep
la Det
asociación NC
, Punt
suscrito Adj
en Prep
septiembre NC
pasado Adj
en Prep
Brasilia NP
y Conj
que Pron
representaría V
a Prep
más Adv
del Prep
50 Num
por Prep
ciento NC
de Prep
los Det
exportadores NC
de Prep
café NC
a_nivel Adv
mundial Adj
, Punt
los Det
países NC
signatarios Adj
informarán V
sobre Prep
el Det
procedimiento NC
de Prep
ratificación NC
. Fin
Resultados NC
de Prep
la Det
novena Adj
jornada NC
y Conj
clasificaciones NC
de Prep
los Det
Grupos_A NP
y Conj
B_de_la_Liga_Europea NP
masculina Adj
de Prep
baloncesto NC
: Punt
- Punt
Resultados NC
: Punt
-- Punt
Grupo_A NP
: Punt
Barcelona NP
( Fin
ESP NP
) Fin
77 Num
- Punt
Benetton_Treviso NP
( Fin
ITA Adj
) Fin
68 Num
Bayer_Leverkusen NP
( Fin
ALE NC
) Fin
87 Num
- Punt
Limoges NP
( Fin
output_test1.txt
tertulias NC
Según unknown
tenido V
Fiscalía_General unknown
fuente NC
PJ_PG_PP_PF_PC_PTOS NP
PJ_PG_PP_PF_PC_PTOS NP
magistrado NC
magistrado NC
invitados NC
depositó unknown
ciudad NC
primer Adj
YUG NP
pobreza NC
celebradas Adj
según unknown
a_pesar_de Prep
viajar V
suave Adj
vez NC
quienes Pron
0 Num
masculina Adj
encuentros NC
solución unknown
665 Num
negociación unknown
empresario NC
feria NC
feria NC
feria NC
feria NC
feria NC
seis Det
cómo unknown
alcanzando V
estaba V
región unknown
718 Num
exportadores NC
714 Num
711 Num
710 Num
BARCELONISTAS_SALVARON_DIFICIL_ESCOLLO NP
ausente Adj
tratar V
Benetton_Treviso NP
francés unknown
imputadas Adj
ilegales Adj
dictó unknown
-- Punt
-- Punt
-- Punt
reducir V
además_de unknown
a_nivel Adv
afirmó unknown
recabados V
meses NC
mundial Adj
peores Adj
suscrito V
pueblos NC
tenía unknown
BEL NC
balneario Adj
cuentas NC
cuentas NC
cuentas NC
señalaron unknown
Pablo_Pacheco NP
Grecia NP
reviste V
abogado V
abogado V
comprado V
importación unknown
sentencia NC
sentencia NC
Latinoamérica unknown
Chiapas NP
Francia NP
Francia NP
Francia NP
Francia NP
Gaspar_Wittgren NP
escándalo unknown
para_que Conj
para_que Conj
para_que Conj
Butros_Gali NP
entrega V
sus Det
sus Det
sus Det
sus Det
sus Det
Caribe Adj
capital NC
; Punt
EP_Estambul-Panathinaikos_Cibona_Zagreb-Joventut_Benfica_Lisboa-Clear_Cantú_Pau_Orthez-Buckler_Bolonia unknown
títulos unknown
Grupo_A NP
Grupo_A NP
reuniones NC
77-68 Num
Brasilia NP
Chipre NP
Asociación_de_Países_Productores_de_Café unknown
acuerdo NC
acuerdo NC
acuerdo NC
GRE NP
GRE NP
GRE NP
sucedía unknown
mes NC
mes NC
Thomas_K._Equels NP
dedicada Adj
norteamericanas Adj
viaje NC
viaje NC
Adolfo_Colombé unknown
congelar V
38 Num
Clark NP
A_través_de unknown
30 Num
precio NC
Policía_Federal unknown
barreras NC
44 Num
44 Num
oficial Adj
acción unknown
645 Num
incremento NC
clima NC
ING NP
julio NC
importancia NC
apropió unknown
ONU_para_Chipre NP
Además unknown
Stela_Díaz_Varín unknown
unos Pron
unos Pron
semana NC
semana NC
2,5 Num
otros Det
presidenta NC
Ecuador NC
presidente NC
presidente NC
presidente NC
presidente NC
presidente NC
presidente NC
presidente NC
Diez Det
internacional Adj
internacional Adj
internacional Adj
Europa NP
Europa NP
Bayer_Leverkusen NP
Bayer_Leverkusen NP
Instituto_Cubano_del_Libro NP
espectadores NC
activades NC
conocer V
europeas NC
europeas NC
francesa Adj
francesa Adj
hacían unknown
informarán unknown
Iacopini NP
6 Num
6 Num
6 Num
6 Num
6 Num
galardón unknown
José_Salgar unknown
Unión_Europea unknown
zona NC
Pau_Orthez NP
Pau_Orthez NP
programación unknown
Premio_Nacional_de_Literatura NP
asistirá unknown
mayoría unknown
sublevado V
novena Adj
novena Adj
especialista NC
servirá unknown
destacable Adj
retención unknown
Cervantes NC
Vianini NP
94 Num
tribunal NC
tribunal NC
1993 Num
1992 Num
1992 Num
40 Num
40 Num
40 Num
autónomo unknown
servido V
ALE NC
mi Det
mi Det
temas NC
editoriales NC
Buckler_Bolonia NP
Buckler_Bolonia NP
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
del Prep
permita V
Colombia NP
política unknown
problemas NC
tampoco Adv
vigor NC
creación unknown
558 Num
La NP
La NP
La NP
La NP
prisión unknown
financieras Adj
Comunidad_Económica_del_Caribe unknown
propicio Adj
mercado NC
Collor NP
Collor NP
Collor NP
Collor NP
Collor NP
proceso NC
proceso NC
proceso NC
proceso NC
proceso NC
comercialización unknown
lograr V
Malinas NP
fuentes NC
fuentes NC
impacto NC
recién unknown
representaría unknown
Dirección_de_Recuperación_Patrimonial_de_la_Contraloría_General_de_la_Nación unknown
Manuel_Antonio_Noriega NP
ene NC
Yo NP
asistirán unknown
1 Num
presunta Adj
Alemania NP
acordadas Adj
años unknown
sin Prep
Bayer_Leverkusen-Barcelona_Benetton_Treviso-Racing_Malinas_Limoges-Guilford_Kings_Olympiakos-Real_Madrid NP
iberoamericana Adj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
y Conj
4.850 Num
culpables Adj
Gran_Bretaña unknown
rechaza V
Destacó unknown
UE NP
UE NP
UE NP
Pittis NP
director NC
sometido V
hombre NC
brasileño unknown
especializada Adj
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
las Det
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
a Prep
trata V
muertos Adj
canciller NC
canciller NC
su Det
su Det
su Det
su Det
su Det
su Det
su Det
su Det
su Det
su Det
su Det
hasta Prep
hasta Prep
primera Adj
primera Adj
primera Adj
entró unknown
logros NC
Incidencias NC
686 Num
avances NC
680 Num
intercomunitarias Adj
682 Num
También unknown
sucesor NC
Próxima unknown
connivencia NC
dimitió unknown
implantada V
producen V
Bernd_Niehaus NP
España unknown
mejores Adj
miembros NC
Eraclio_Zepeda NP
1_de_octubre Data
ronda NC
22 Num
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
la Det
sospechosas Adj
lo Pron
lo Pron
lo Pron
caribeña unknown
fue V
fue V
fue V
fue V
fue V
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
, Punt
如您所见,每行对应于:word +" \ t" + tag
这是我的代码:
with open("output_test1.txt", "r") as a, open("gold_standard_1.txt", "r") as b:
dataA=a.readlines()
dataB=b.readlines()
aciertos = 0;
for lineaA in dataA:
lineaA.decode('latin_1').encode('utf-8')
sintagmaA = lineaA.split('\t')
for lineaB in dataB:
lineaB.decode('latin_1').encode('utf-8')
sintagmaB = lineaB.split('\t')
print sintagmaB[0]
print sintagmaA[0]
if(sintagmaA[0] == sintagmaB[0] and sintagmaA[1]== sintagmaB[1]):
aciertos+=1;
break
如果我尝试打印aciertos,最后,值总是0 ......但是有匹配!!!如何比较正确形式的文件?
答案 0 :(得分:1)
当您在第一个文件中为每行迭代时,您当前的技术效率非常低。
尝试以下代码。
set_a, set_b = set(), set()
with open('a', 'r') as a, open('b', 'r') as b:
for line in a:
set_a.add(line)
for l in b:
set_b.add(line)
print set_a & set_b
这样做会构建两个集合,每个集合包含来自文件a
abd b
的行。然后它执行交集set_a & set_b
以获取两个文件共有的行。
将a
和b
替换为您的文件名,并在每个for循环中的line
上执行任何其他编码/解码,然后再将其添加到集合中。如果没有,代码将完成行的匹配(包括前导/尾随空格)。