如何保存,然后从dataframe中的文件名中提取一些信息

时间:2018-06-18 00:43:49

标签: python pandas numpy readfile

我在路径中有近100万甚至更多的文件。 我的最终目标是从names个文件中提取一些信息。 到目前为止,我已将文件名保存在列表中。

文件名中的哪些信息?

所以文件名的格式是这样的:

09066271_142468576_1_Haha_-Haha-haha_2016-10-07_haha-false_haha2427.txt

所有哈哈都是其他不同的文本。

我想从名称中提取090662712016-10-07并保存在数据框中。第一个数字总是8个字符。

到目前为止,我已将整个文本文件名保存在列表中:

path = 'path to the saved txt files/fldr'
file_list = os.listdir(path)

首先,我想将整个txt文件名保存在数据框中,然后对它们执行这些操作。似乎我必须首先阅读numpy然后重塑它在熊猫中可读。但是我现在还没有重塑数字。

df = pd.DataFrame(np.array(file_list).reshape(,))

如果你能给我你的想法以及这样做的有效方法,我将不胜感激:)

1 个答案:

答案 0 :(得分:3)

您可以使用import React from 'react'; import Chosen from './Chosen'; function Restaurants(props) { return ( <Chosen className="Chosen-select" onChange={ value => console.log(value) }> { [{name: 'h'}, {name: 'j'}, {name: 'k'}].forEach( r => { <option>{ r.name }</option> }) } </Chosen> ); } export default Restaurants; 列出所有文件。然后只需构造一个os并使用字符串方法来获取所需文件名的各个部分。

DataFrame
import pandas as pd
import os

path = 'path to the saved txt files/fldr'
file_list = os.listdir(path)

df = pd.DataFrame(file_list, columns=['file_name'])
df['data'] = df.file_name.str[0:8]
df['date'] = df.file_name.str.extract('(\d{4}-\d{2}-\d{2})', expand=True)