语言python编码中的概念错误

时间:2018-04-11 00:15:39

标签: python dictionary linguistics

对于背景:芬兰语中的某些字母不是典型拼写字母的一部分,可能表示某个单词来自另一种语言。这些可能是另一种语言的专有名称,或者可能是借词 - 也就是说,它们是芬兰语的一部分,但是借用了另一种语言。可能表示单词的字母是贷款单词: åcqxfgwz

我正在尝试编写符合以下规范的程序: 一个名为get_loan_words(filename)的函数,它读入芬兰语的文本文件,并返回一个字典,将上面显示的每个字母映射到包含在文本文件中的文本中的包含它的一组借用词。如果单词中出现多个这样的字母,则与每个字母关联的集合应包含该单词。如果在文本中的任何单词中找不到字母,则它不应出现在字典中。该函数应该在创建字典之前将文本转换为全部小写并删除标点符号。

例如,如果我们使用以下文本(摘录自.txt文件): Kärppienkasvattion pelannut SM-liigassaoululaisseuranlisäksiPelicansinsekäHIFK:ns铆界流,mistälähtiviimekaudenjälkeenjuuriRögleen。 Aaltonen on nelinkertainen Suomen- mestari ja kuusinkertainen SM-mitalisti.SM-liigan ja useiden muiden huippusarjojen siirtoikkuna sulkeutuu ensi viikolla。

返回的字典将是:   {'g':{'smmitalistismliigan','smliigassa','rögleen'},'c':{'pelicansin'},'f':{'hifkn'}}

现在这是我的代码:

def find_loan(filename):
  loans = {}
  LOAN  = 'åcqxfgwz'
  with open(filename,'r',encoding='UTF-8') as entries:
    for line in entries:

我的问题如下:

  1. 如何删除标点符号并将文本转换为返回字典中的小写,是否设置了对字典中所有键/值执行此操作的方法?

  2. 如何让函数从文本文件中添加单词到集合中,如何确定单词中是否有不同的借词字母,该集合在不同的键值下返回单词两次

0 个答案:

没有答案