我正在处理所提供数据位于.data
文件中的副作用。如何打开.data
文件以查看数据的外观以及如何通过python以编程方式从.data
文件中读取?我有Mac OSX
注意:我正在使用的数据是针对其中一个KDD cup challenges
答案 0 :(得分:0)
这在很大程度上取决于其中的内容。它可以是二进制文件,也可以是文本文件。
如果是文本文件,则可以像打开任何文件一样打开它(f = open(filename," r"))
如果是二进制文件,您只需添加" b"打开命令(打开(文件名," rb"))。这里有一个例子:
Reading binary file in Python and looping over each byte
根据其中的数据类型,您可能想尝试将其传递给csv阅读器(csv python模块)或xml解析库(其示例为lxml)
进一步从上面进入并查看页面格式为:
数据格式 数据集使用与关系数据库中的文本导出格式类似的格式:
带有变量名称的一个标题行 每个实例一行 值之间的分隔符列表 缺少值(连续制表)
因此请看这个答案:
parsing a tab-separated file in Python
我建议尝试一次处理一行而不是加载整个文件,但如果你有ram,为什么不...
我怀疑它没有在崇高中打开,因为文件很大,但这只是猜测。
答案 1 :(得分:0)
要快速了解文件可能包含的内容,可以在终端中使用strings
或cat
,例如:
$ strings file.data
或
$ cat -v file.data
如果您忘记将-v
选项传递给cat,并且如果它是二进制文件,则可能会使您的终端混乱,因此需要将其重置:
$ reset
答案 2 :(得分:0)
请尝试使用记事本或Gedit检查文件中的定界符(.data
文件也是文本文件)。确认这一点后,即可在python的Pandas库中使用read_csv
方法。
import pandas as pd
file_path = "~/AI/datasets/wine/wine.data"
# above .data file is comma delimited
wine_data = pd.read_csv(file_path, delimiter=",")
答案 3 :(得分:0)
我只是自己处理这个问题,所以我想我会分享我的答案。我有一个 .data 文件,无法通过右键单击它来打开它。 MACOS 建议我使用 Xcode 打开它,所以我尝试了它,但它不起作用。
接下来我尝试使用名为“Brackets”的程序打开它。它是一个主要用于 HTML 和 CSS 的文本编辑程序。括号确实有效。
我也尝试过 PyCharm,因为我是一名 Python 程序员。 Pycharm 也能正常工作,我还可以使用以下代码行读取文件:
inf = open("processed-1.cleveland.data", "r")
lines = inf.readlines()
for line in lines:
print(line, end="")
答案 4 :(得分:0)
它对我有用。
import pandas as pd
# define your file path here
your_data = pd.read_csv(file_path, sep=',')
your_data.head()
我的意思是,如果它用','分隔,就将它作为一个csv文件。 来自@mustious 的解决方案。