在文本文件中的每个单词之间插入制表符

时间:2016-12-15 05:44:43

标签: python nlp

我有一个utf8编码的文本文件a.txt,其中包含以下格式的数据:

എടവപ്പാതി\N_NN
തുടങ്ങിയിട്ട്\V_VM_VNF
നാലു\QT_QTC
ദിവസമായി\N_NN
.\RD_PUNC

每行只包含一个带有适当标记的单词。

我想在单词和标签之间插入一个标签。

2 个答案:

答案 0 :(得分:0)

如果你想使用正则表达式,正则表达式可以解决你的问题请参阅python代码:

import re

regex = r"\\"

test_str = " എടവപ്പാതി\\N_NN തുടങ്ങിയിട്ട്\\V_VM_VNF നാലു\\QT_QTC ദിവസമായി\\N_NN .\\RD_PUNC"

subst = "\\t\\\\"

# You can manually specify the number of replacements by changing the 4th argument
result = re.sub(regex, subst, test_str, 0)

if result:
    print (result)
  

എടവപ്പാതി\ N_NNതുങങയ​​ങങV V V V V V V \ \ \ \ \ \ \ \ \ \ \ \ \ \ \   。 \ RD_PUNC

答案 1 :(得分:0)

如果使用\符号分隔单词和标签,则可以使用replace功能。它看起来像这样:

for line in open('a.txt').read():
    print(line.replace('\\', '\t')

如果你想保留这个' \'在那里签名,你可以这样做:

for line in open('a.txt').read():
    print(line.replace('\\', '\t\\')