在印地语句子上应用RegEx

时间:2017-09-08 11:00:27

标签: python regex string

我想知道如何找到发现的正则表达式:

  

“ईरानकेअग्रणीविरोधीगुटनेशनलकाउंसिलफफरेसिस्टेन्सईरानकेमरयाम   रजावीनेयूरोपीयसंघसेमांगकीकेतेहारानकोआतंकवादऔरकट्टरपंथी   हाइड्रासेमुक्तिदिलानीचाहिए。“

在这句话中:

  

“更多信息”   संयुक्तराष्ट्रसंघसुरक्षापरिषद्नेएकस्वरसेइसकीनिंदाकीतथा   यूरोपियनसेघनेभीकड़ेशब्दोंमेंइसकीनिंदाकी.कनाडाके   प्रधानमंत्रीमार्टिननेइसेसीमारेखालांघनेवालाबताया。 ब्रिटेनके   प्रधानमंत्रीब्लेयरकीनजरमेंयहखौफनाकहै.फ्रांसकेविदेशमंत्री   फिलिपदोस्तेब्लेजेनेघोषणाकीकिफ्रांसकेलिएइजरायलकाअस्तित्र   टकरावकेविषयनहींहै.लीमोन्डेनेइसभाषणकोसतर्कहोनेवालाबताया   Die weltनेइ्ेउच्चरितआतंकवादबतायातथालंदनसन्केसमाचारशीर्षक   这是一个अहमदीनेजादककव्श्वकासेसेबुराव्यक्तिकहागया。 इसबयानकी   निंदाकरनेवालेराज्योंमेंतुर्की,रुसऔरचीनभीशामिलहैं。 ईरानके   अग्रणीविरोधीगुटनेशनलकाउंसिलफफरेसिस्टेन्सईरानकेमरयामरजावीने   यूरोपीयसंघसेमांगकीकितेहारानकोआतंकवादऔरकट्परपंथीहाइड्रासे   मुक्तिदिलानीचाहिए。“

我尝试在python中使用(.star)(句子)(。star),即

   reg = re.search(re.escape('.*'+<sentence>+'.*'),<paragraph>) 

但它不起作用。

我使用re.escape()跳过特殊字符。

这是用UTF-16编码的。

除了ascii之外还有什么不能匹配句子吗?

1 个答案:

答案 0 :(得分:3)

您似乎正在传递您想要正则表达式引擎要理解的元字符,从而产生一种您将永远无法在字符串中找到的模式。这将有效:

In [101]: re.search(p, t)
Out[101]: <_sre.SRE_Match object; span=(656, 823), match='ईरान के अग्रणी विरोधी गुट नेशनल काउंसिल ऑफ रेसिस्>

p是句子,t是段落。