如何在印地语单词意义消歧任务

时间:2017-11-20 07:37:35

标签: python wordnet hindi wsd

我正在为hindi WSD使用以下数据集,

एकबारवीरगढ़राज्यकीमहारानीकाहारकहींखोगया。这是一个很好的例子。 उन्होंनेहारढूंढनेकीबहुतकोशिशकीपरवहनहींमिला。 हारकेलिएमहारानीकोबहुतपरेशानदेखकरराजानेघोषणाकरवादीकिजिसव्यक्तिकोभीहारमिलाहो,वहतीनदिनोंकेभीतरउसेवापसकरदेअन्यथाउसेमृत्युदंडकाभागीहोनापड़ेगा。 यहसंयोगथाकिहारएकसंन्यासीकोमिलाथा。在这里,您可以享受更多信息,更多信息,更多信息,更多信息,更多信息,更多信息,更多信息,信息和服务信息。 उसनेअगलेदिनराजाकीघोषणासुनी,परवहहेरेेेेनींगगा。 वहअपनीसाधनामेंलीनरहा。 तीनदिनबीतगए。更多信息,请访问我们的网站。 राजाकोजबपताचलाकितीनदिनोंसेहारउसकेपासथा,तोउसनेक्रोधितहोकरपूछा,“क्यातुमनेमेरीघोषणानहींसुनीथी?संन्यासीनेजवाबदिया“सुनीथी,परयदिमैंकलहारलौटानेआजातातोलोगकहतेकि एकसंन्यासीहोकरमृत्युसेभयभीतहोगया。'इसपररर»»'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''更多信息,请访问कीसेपत्तिकेअपनेपासरखनापापसमझताहूं。 हारजैसीतुच्छछीजसेमुझेककईलगावनहीं。'यहउत्तरसुनकरराजालज्जितहोगया。这是一个很好的选择उसनेहारबेचकरवहरररेशिगरीबोंमेंबंटवादी。

न्यूयॉर्क。 हीरेकाहारपहनीएकबार्बीगुडियान्यूयॉर्कमेंरेकॉर्डकीमतमेंनीलामहुईहै。 अपनीतरहकीयेअकेलीबार्बीडॉलकालालिबासपहनेहुईहैऔरउसकेगलेमेंएककैरेटकाचौकोरगुलाबीहीरेकाहारहै。 येगुडियामेंबनायागयाथाऔरतबसेलेकरआजतकइसकारूपकईईारबदलाहै。更多信息来自कारेकॉर्डडनानेवालीबार्बीगुडियाककेस्ल्रेलियाकेएकगहनोंकेडजजयनरस्टीफानोकैन्टुरीनेबनायाहै。

我的问题是如何通过使用"本地上下文和搭配上下文来提取此样本数据集中的特征" ...这里含糊不清的单词是हार(项链)..如何从左边获取两个单词从模糊的权利的两个词...在印地文单词网络中,有2个意义的单词हार... 我正在使用Anaconda python --jupyter环境..

我的代码在这里

#****************Word Sense Disambiguation in Hindi Language**********************
#*****************Tokenization and Stop Word removal******************************
import nltk
filename = "C:/Users/Lubna Khan/My-WSD/हार/ContextSenses002.txt"
file = open(filename, "r+", encoding="utf-16")
DisplayTextF = file.read()
#print(DisplayTextF)
tokens = nltk.word_tokenize(DisplayTextF)
#print(tokens)
token = [w for w in tokens]
#reading stop-word file which is in hindi text (Devnaagri script)
filename = "C:/Users/Lubna Khan/My-WSD/HindiStopWords.txt"
file = open(filename, "r+", encoding="utf-16") 
sw = file.read()
sw_token = nltk.word_tokenize(sw)
stop_words = [w for w in sw_token]
filtered_sentence = []
for w in token :
    if w not in stop_words :
        filtered_sentence.append(w)
print(filtered_sentence)
#*************Feature Extraction***************

请帮帮我.. 提前致谢

Hindi WSD code in Python

Hindi_Stop_word_Removal+Tokenization

0 个答案:

没有答案