如何在python的urdu词向量中找到urdu文本

时间:2018-10-11 12:47:04

标签: python python-3.x

我有一个存储所有文件的文件数组,现在我使用了for循环来逐个遍历文件并从文件中获取urdu文本。 。在获取urdu文本时,我使用split()函数来分割行并搜索urdu单词向量中的每个单词。

问题是它与单词矢量文件中的urdu文本不匹配

 for pf in positiveFiles:
     with open(pf, "r",encoding="utf-8") as f:
        indexCounter = 0
        line=f.readline()
        split=line.split()
        for i in range(len(wordsList)): 
            if wordsList[i] == split:
                print(i)
            else:
                 print("no match")

显示所有单词均不匹配。

我想获取每个Urdu单词的索引。所有乌尔都语单词及其索引都位于wordsList

文件中的urdu数据是这样的

['\ufeffیار', 'یہ', 'اردو', 'رسم', 'الخط', 'میں', 'زیر،', 'زبر،', 'پیش', 'کیسے', 'لگاتے', 'ہیں؟کوئی', 'سمجھانے', 'تو']
3954
['\ufeff', 'سالہ', 'امل', 'کی', 'موت', '’کاش', 'کسی', 'بھی', 'والدین', 'کو', 'اتنی', 'بہادری', 'کا', 'مظاہرہ', 'نہ', 'کرنا', 'پڑے']
3954
['\ufeffہم', 'آ', 'جا', 'کر', 'تشخص', 'پاکستان،', 'اسلام', 'اور', 'اردو', 'زبان', 'کے', 'حوالے', 'سے', 'سلیبس', 'پر', 'فوکس', 'کرتے', 'ہیں۔']

我认为问题可能在于单引号

1 个答案:

答案 0 :(得分:0)

我没有收到您的问题,但是您可以简单地通过一些可以与list一起使用的函数,我认为您无需运行编写的用于比较元素的循环

例如查找列表中任何元素的索引

listA = ['\ufeff', 'سالہ', 'امل', 'کی', 'موت', '’کاش', 'کسی', 'بھی', 'والدین', 'کو', 'اتنی', 'بہادری', 'کا', 'مظاہرہ', 'نہ', 'کرنا', 'پڑے']

'بھی' in listA
# this will return True if listA has that element

第二,您可以从列表中获取元素的索引

listA = ['\ufeff', 'سالہ', 'امل', 'کی', 'موت', '’کاش', 'کسی', 'بھی', 'والدین', 'کو', 'اتنی', 'بہادری', 'کا', 'مظاہرہ', 'نہ', 'کرنا', 'پڑے']

try:               
    print(listA.index('کسی'))
except Exception as e: 
    print (e)