在python中标记多语言文字

时间:2018-10-22 11:29:02

标签: python ubuntu tokenize icu

我正在尝试标记文本。为了使其正常工作,我在尝试Polygot并进行安装,该方法已在文档中提到。安装后,我一直在尝试运行简单的脚本:

import polyglot
from polyglot.text import Text, Word

text = Text("\"သမၼတဦးဝင္းျမင့္ရဲ႕ ျခင္းခတ္ကစားဟန္\"\n\nႏိုင္ငံေတာ္သမၼတ ဦးဝင္းျမင့္  ျမန္မာ့ရိုးရာဝိုင္းျခင္းခတ္ ေနတဲ့ပုံေတြ ဟာ ဒီကေန႕ ညေနပိုင္းမွာထြက္ရိွလာပါတယ္။\n\nဒီကေန႕ ညေနပိုင္းမွာ သမၼတအိမ္ေတာ္ဝင္းအတြင္းမွာ သမၼတဟာ သူရဲ႕မိတ္ေဆြေတြနဲ႕ ျခင္းခတ္ခဲ့တာလို႕ သိရပါတယ္။\n\nသမၼတနဲ႕ဝိုင္းျခင္းခတ္တဲ့သူေတြထဲမွာေတာ့ အမ်ိဳးသားလႊတ္ေတာ္ကိုယ္စားလွယ္ ဦးေက်ာ္သီဟ ၊ အစိုးရ ရဲ႕ၿငိမ္းခ်မး္ေရးေကာ္မရွင္အဖြဲ႕ဝင္ ဦးေအာင္စိုးတို႕ပါဝင္ၾကပါတယ္။\n\nသမၼတ ဦးဝင္းျမင့္ဟာ   သမၼတတာဝန္မထမ္းေဆာင္မီ လႊတ္ေတာ္ကိုယ္စားလွယ္အျဖစ္ ေနျပည္ေတာ္က စည္ပင္ဧည္႕ရိပ္သာဝင္းအတြင္း ေနထိုင္စဥ္ကတည္းက အမ်ိဳးသားဒီမိုကေရစီအဖြဲ႕ခ်ဳပ္ ပါတီဝင္လႊတ္ေတာ္ကိုယ္စားလွယ္အခ်ိဳ႕နဲ႕ ညေနပိုင္းေတြမွာ  ျခင္းခတ္ေလ့ရိွပါတယ္။\n\nကိုယ္လက္လႈပ္ရွားအားကစားအျဖစ္  ျခင္းခတ္ေလ့ရိွတဲ့သူေတြထဲမွာ ေတာ့ လက္ရိွ မႏၱေလးတိုင္းဝန္ႀကီးခ်ဳပ္ ေဒါက္တာေဇာ္ျမင့္ေမာင္ ၊ ဧရာဝတီတိုင္းဝန္ႀကီးခ်ဳပ္ေဟာင္း မန္းေဂ်ာ္နီတို႕လည္း ပါဝင္ေလ့ရိွပါတယ္။ ")

print(text.words)

但出现错误提示:

Traceback (most recent call last):

File "tkn.py", line 2, in <module>
from polyglot.text import Text, Word
File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/text.py", line 9, in <module>
from polyglot.detect import Detector, Language
File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/detect/__init__.py", line 1, in <module>
from .base import Detector, Language
File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/detect/base.py", line 11, in <module>
from icu import Locale

ModuleNotFoundError: No module named 'icu'

要解决此问题,我尝试了提到的here的多个步骤和几个answers as given here的步骤,但仍未解决问题。我正在与Ubuntu合作。

此外,如果我按照某些帖子的建议尝试安装pip install pyicu,则在尝试安装Failed building wheel for pyicuerror: command 'gcc' failed with exit status 1时出现错误。

我不确定如何从这里继续。如何解决相关错误并使脚本正常工作?

我还下载并安装了icu(为Ubuntu手动构建),但没有帮助。

curl -LO http://download.icu-project.org/files/icu4c/63.1/icu4c-63_1-src.tgz
tar xzvf icu4c-63_1-src.tgz
cd icu/source
chmod +x runConfigureICU configure install-sh
./runConfigureICU Linux
make
sudo make install
sudo cp -r common/unicode /usr/local/include/

0 个答案:

没有答案