我正在尝试完成一个计算项目,我可以复制情绪分析,并找到与tar.gz文件中保存的数据集中的词性使用情况的相关性。该文件当前保存在我的大学服务器上的用户目录中。访问目录不是问题。我遇到的问题是将文件导入Python,以便我可以运行Counter脚本。我是NTLK平台的新手。有人可以解释一下如何克服这个障碍吗?
答案 0 :(得分:1)
tar
是一种归档工具。你的文件是一个gzipped tar存档。你必须解压缩该文件:
tar -xvzf file.1.tar.gz
之后,您可以使用常规文件操作轻松地在python中操作解压缩的文件。您也可以使用某些python模块来解压缩存档,但我没有看到任何额外的值。
答案 1 :(得分:0)
要在Python中打开gzip压缩文件,可以使用tarfile module:
import tarfile
tfile = tarfile.open("myfile.tar.gz", "r:gz")
# do stuff
tfile.close()
或(在Python 2.7及更高版本上):
import tarfile
with tarfile.open("myfile.tar.gz", "r:gz") as tfile:
# do stuff; file will automatically be closed when exiting the with block