从文本文件或网页中选择unicode字符

时间:2011-10-05 09:31:43

标签: python

我可以对devnagari单词进行音节化,如下页所示。

https://gist.github.com/950405

但我想做的是从以下网页找到以“ह”开头的字样。

http://www.sacred-texts.com/hin/mbs/mbs12030.htm

如何使用python完成?

1 个答案:

答案 0 :(得分:0)

如果你的单词是unicode字符串,收集在列表words中,那么以下代码段会显示以"x"开头的所有单词

for word in words:
    if word.startswith(u"x"):
         print word

或者,如果您想获得以u"x"开头的所有单词的列表,您可以使用列表理解:

selected_words = [ w for w in words if w.startswith(u"x") ]