我有一个很大的txt文件yCoordinate = pink.relativeTransform.y + redContainer.boundingBox.y
xCoordinate = pink.relativeTransform.x + redContainer.boundingBox.x
,其中包含超过1亿个字,文件大小为1.7 GB。我使用python scrapy框架创建了这个文件,以抓取报纸网站。
现在,我想创建一个具有唯一性单词(孟加拉语字母,UTF8)的字典,每个单词的出现频率(该单词出现在scrapped_db.txt文件中的次数)。像这样
আমি201523
তুমি15014
ভালোবাসি1233
দেখা18556
或
আমি201523তুমি15014ভালোবাসি1233দেখা18556
字典应该是另一个txt文件。这样我就可以轻松处理输出文件。 一个主要的问题是,每当我尝试使用该文件时,它都会显示有关文件大小的多个错误。请建议使用php或python的方法。
答案 0 :(得分:0)
注释中提到的python解决方案将像-
from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
for line in f:
l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
word_count.update(l)
有了这个,您将得到一个像-
的字典。word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}
现在您所需要做的就是将此字典写入文件中。您只需对要写入的文件执行json.dumps(word_count)
。如何read and write到python中的文件。