我想处理日语和中文之间的单行翻译语料库
JST_JC_ENVI-abst-06A0281759-par1-sen1 ||| C&D管理施设の高度化||| C&D管理设施的高度化JST_JC_ENVI-abst-06A0281759-par1-sen2 |||河流リサイクリング施设(RRF)を所有しているが,建设及び解体(C&D)ごみの埋立地に立地している。|||缅因州的波特兰拥有Riverside循环使用设施(RRF),但其却位置选定于建设及解体(C&D)垃圾的填埋地.JST_JC_ENVI-abst-06A0281759-par1-sen3 |||この施设はかさばる廃物物物るる物物物物C该设施接受体积大的废弃物,居民投弃的叶子或C&d垃圾,本文介绍了该设施最近的作业情况。
中文和日文的前缀为JST_JC_ENVI-abstXXXXXXXX
字符串,并按|||
分隔。
所以我的问题是如何删除所有相同的前缀" JST_JC_ENVI-abstXXXXXXXX
"字符串并通过行将中文输入chinese.txt
,将日语输入japanese.txt
行?
谢谢。
答案 0 :(得分:0)
首先,处理线条并用空格分割。
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
infile=open('dev.txt','r')
outfile1 =open('dev-mid.txt','w')
lines = infile.read()
i = lines.split()
for e in i:
outfile1.write(e+'\n')
然后,使用 WORD 删除 dev-mid.txt 中的空格和相同的前缀字符串。
最后,
import os
infile=open('dev-mid.txt','r')
outfile1 =open('dev-in.txt','w')
outfile2 =open('dev-out.txt','w')
i=1
for line in infile.readlines():
if i%2==1:
## print(line)
outfile1.write(line)
i+=1
else:
i+=1
## print(line)
outfile2.write(line)
infile.close()
outfile1.close()
outfile2.close()
处理偶数行和奇数行。 dev-in.txt 是日语, dev-out.txt 是中文:-D