如何在php或python中创建每个单词出现频率的单词词典

时间:2018-07-29 08:09:17

标签: php python file dictionary corpus

我有一个很大的txt文件yCoordinate = pink.relativeTransform.y + redContainer.boundingBox.y xCoordinate = pink.relativeTransform.x + redContainer.boundingBox.x ,其中包含超过1亿个字,文件大小为1.7 GB。我使用python scrapy框架创建了这个文件,以抓取报纸网站。

现在,我想创建一个具有唯一性单词(孟加拉语字母,UTF8)的字典,每个单词的出现频率(该单词出现在scrapped_db.txt文件中的次数)。像这样

  

আমি201523

     

তুমি15014

     

ভালোবাসি1233

     

দেখা18556

  

আমি201523তুমি15014ভালোবাসি1233দেখা18556

字典应该是另一个txt文件。这样我就可以轻松处理输出文件。 一个主要的问题是,每当我尝试使用该文件时,它都会显示有关文件大小的多个错误。请建议使用php或python的方法。

1 个答案:

答案 0 :(得分:0)

注释中提到的python解决方案将像-

from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
    for line in f:
        l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
        word_count.update(l)

有了这个,您将得到一个像-

的字典。
word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}

现在您所需要做的就是将此字典写入文件中。您只需对要写入的文件执行json.dumps(word_count)。如何read and write到python中的文件。