通过文件夹阅读?

时间:2013-04-22 20:42:44

标签: python file list python-3.x

我被指派编写一个捕捉抄袭者的程序。给定一个文件夹,我将如何逐个文件地遍历它们,构建每个文件中所有6个单词短语的列表。一个例子是

现在是所有好人来帮助他们国家的时候了。

包含6个字的短语: 现在是时候了, 是所有好的时间, 所有好人的时间, 所有好人的时间, ......等等。

ExampleFile=F.read('File')
index1=0
index2=5
List1=[]
while True:
     index1+=1
     index2+=1
     List1+= Examplefile[index1:index2]

到目前为止我是否创建了6个单词短语的列表。那么我将如何为每个文件执行此操作,然后比较这些结果以查看是否有任何两个文件有超过200个相同的短语?我在使用Python中的文件方面做得很少,所以尽可能地减少所有内容。谢谢!

1 个答案:

答案 0 :(得分:3)

由于这是家庭作业,我认为有几个链接可以帮助你完成代码。

查看列出文件夹中所有文件的os.listdir和遍历目录树的os.walk

然后你可以列出每个项目是短语容器的列表。我建议为每个文件使用set个短语,以及此类集的列表,或者set frozenset个。{/ p>

然后,您可以将这些集合的所有成对组合与itertools.combinations一起使用,并为每对计算intersection。如果任何交叉点的大小高于阈值,您就找到了抄袭者。


对您当前代码的评论:有一个命名约定,变量名称应以小写字母开头,大写名称用于类。