为文件夹中的每个文档分配docID

时间:2017-11-07 19:29:57

标签: python

我在一个名为Serverend的文件夹中有一个文本文件夹,现在我想为每个文本文件分配一些ID,我使用下面的代码

docID_list = [int(docID_string) for docID_string in os.listdir('Serverend')]

但我最终得到了错误

invalid literal for int() with base 10:

任何人都可以帮助我

1 个答案:

答案 0 :(得分:0)

您在os.listdir()中列出的文件名是包含非数字字符的字符串。 int()无法根据这些字符串创建整数。

如果您不需要数字ID,请考虑将文件名的md5哈希值作为文档ID:

import hashlib

docID_list = [hashlib.md5(docID_string).hexdigest() for docID_string in os.listdir('Serverend')]

(根据我的上述评论添加为答案。)