与devanAgarI的Python正则表达式

时间:2016-05-24 21:30:35

标签: python regex unicode

考虑以下代码:

#! /usr/bin/python
# coding: utf-8
# Prerequisite: sudo easy_install regex
import regex
import sys
import collections

test = True

lines = []
if (test):
  test_lines = """
अ पु. संस्कृत वर्णमाला का प्रथम वर्ण [विशेषतया तीन दिन
तक चलने वाले सोम-याग (त्रिरात्र) के प्रथम दिन आज्य
इति”, पञ्च. ब्रा. 2०.14.3।
अंश पु.1 अ. भाग (देवों, पितरों एवं मनुष्यों के लिए नियत)
ऋ.वे. 1०.31.3; अ.वे. 11.1.5;1 ब. पशु-भाग, बौ.श्रौ.सू.
का नाम, ऋ. प्रा. 17.4; निदा.सू. 1०5.2०।
""".split("\n")
  lines = test_lines
else:
  lines = sys.stdin.readlines()

full_text = "\n".join(lines)
full_text = regex.sub(ur'^(\S+)\s+(पु[ .])', '####\g<1>####\g<1> \g<2>', full_text, flags=regex.UNICODE|regex.MULTILINE)
print(full_text)    

我希望上面的内容产生以下输出:

    ####अ####अ पु. संस्कृत वर्णमाला का प्रथम वर्ण [विशेषतया तीन दिन
    तक चलने वाले सोम-याग (त्रिरात्र) के प्रथम दिन आज्य
    इति”, पञ्च. ब्रा. 2०.14.3।
    ####अंश####अंश पु.1 अ. भाग (देवों, पितरों एवं मनुष्यों के लिए नियत)
    ऋ.वे. 1०.31.3; अ.वे. 11.1.5;1 ब. पशु-भाग, बौ.श्रौ.सू.
    का नाम, ऋ. प्रा. 17.4; निदा.सू. 1०5.2०।

但是我得到了不变的文字。

1 个答案:

答案 0 :(得分:2)

正如@WiktorStribiżew所指出的,在处理Unicode文本时,字符串应该是Unicode。

您必须使用Python 2,因此请更改:

test_lines = """

为:

test_lines = u"""

此外,对于stdin更改:

lines = sys.stdin.readlines()

为:

lines = [line.decode(sys.stdin.encoding) for line in sys.stdin]