我有一个由10,000个随机生成的字符组成的字符串,但为了在我的项目中继续,我需要从数据集中创建100个长度为20的字符串。
我想知道如何在python中对此进行编码,以便从字符串中选择100个长度为20的模式,而不会使所选字符串重叠而不重复模式。
这是我目前生成模式的代码,我不是最好的程序员。
由于
答案 0 :(得分:0)
由于您没有显示您正在使用这些内容以及是否允许重复,我将描述您需要做什么。
获取完整数据集的大小。
为起始索引生成一个随机数。确保不要超出缓冲区(起始索引必须在缓冲区结束前至少20个字符
从缓冲区中获取从所选索引开始的切片并放入列表中
从缓冲区中删除切片。
循环所需的次数
现在处理您的清单。