如何使用Python从多个文件中提取数据?

时间:2014-02-24 04:54:57

标签: dataset text-extraction

我是Python的新手,这也是我的第一个编程语言。我有一组txt文件(学术论文),我需要提取论文ID(例如ID:a1111111)和摘要(例如摘要:.....)。我不知道如何从多个文件夹中的多个文件中提取这些数据?非常感谢!

1 个答案:

答案 0 :(得分:0)

所以你的问题是两部分:阅读文件和访问文件夹

  • 阅读文件

用于读取文件的python中的方法/对象在第7章的Python文档中: http://docs.python.org/2/tutorial/inputoutput.html

基本要点是使用open方法访问同一目录中的文件

f = open('stuff.txt', 'r')

其中stuff.txt是您的python文件所在目录中的文件名。 调用print f.read()将显示文件的文本(以String格式)。随意将f.read()分配给变量以捕获数据。

>>> x = f.read()
>>> print x
This is the entire file.\n

最好阅读所有这些方法的文档,因为有细微之处。例如,调用f.read()一次将返回整个文件内容,但再次调用f.read()将返回一个空字符串,因为“已到达文件末尾”。

  • 访问文件夹

您能告诉我您想要如何访问文件夹吗?在这种情况下,将所有文件放在与运行python文件的目录相同的目录中要容易得多。 但是,在python中移动的基本方法是使用:os.chdir(path)这基本上是cd'ing。在使用之前,您必须导入os

如果您想了解更多信息,请发表评论