我应该以块的形式读取一个大的txt文件,并且必须处理块中的每个单词。但有些词可以切成碎片。 例如:
text_in_file = 'some text in file to be processed'
text_in_file.read(15)
结果将是'some text in fi', 'le to be proces'
,依此类推
有没有办法找出单词是否被剪切并加入前一个块的结尾和下一个块的开头?
答案 0 :(得分:0)
请逐行阅读,以下是: https://stackoverflow.com/a/8010133/3997052
这样你(可能)没有得到"分裂"单词 - 取决于您的文件。