Question

我有一个很大的txt文件yCoordinate = pink.relativeTransform.y + redContainer.boundingBox.y xCoordinate = pink.relativeTransform.x + redContainer.boundingBox.x，其中包含超过1亿个字，文件大小为1.7 GB。我使用python scrapy框架创建了这个文件，以抓取报纸网站。

现在，我想创建一个具有唯一性单词（孟加拉语字母，UTF8）的字典，每个单词的出现频率（该单词出现在scrapped_db.txt文件中的次数）。像这样

আমি201523

তুমি15014

ভালোবাসি1233

দেখা18556

或

আমি201523তুমি15014ভালোবাসি1233দেখা18556

字典应该是另一个txt文件。这样我就可以轻松处理输出文件。一个主要的问题是，每当我尝试使用该文件时，它都会显示有关文件大小的多个错误。请建议使用php或python的方法。

Answer 1

注释中提到的python解决方案将像-

from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
    for line in f:
        l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
        word_count.update(l)

有了这个，您将得到一个像-

的字典。

word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}

现在您所需要做的就是将此字典写入文件中。您只需对要写入的文件执行json.dumps(word_count)。如何read and write到python中的文件。

如何在php或python中创建每个单词出现频率的单词词典

1 个答案: