我被分配了一项任务,用于从原始质谱分析光度数据(file.mzML)处理的文件中检索信息。 这些文件只有" .data"作为扩展,当我打开它们时,我无法识别语言,因此我无法将它们加载到R中并对它们进行处理。
扩展名为.data的文件包含在此文件夹中:
ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2015/11/PXD000299/
有人可以查看任何files.data并告诉我语言是否在(例如F010439)?
编辑:这些是一些片段
第1至10行
MIME-Version: 1.0 (Generated by Mascot version 1.0)
Content-Type: multipart/mixed; boundary=gc0p4Jq0M2Yt08jU534c0p
--gc0p4Jq0M2Yt08jU534c0p
Content-Type: application/x-Mascot; name="parameters"
LICENSE=Licensed to: INRA Tours, P-F Proteomique Analytique & Fonction.,Nouzilly (0085-0000003524/1), (2 processors).
MP=
NM=
COM=
第120至130行
NeutralLoss3_master=63.998285
--gc0p4Jq0M2Yt08jU534c0p
Content-Type: application/x-Mascot; name="unimod"
<?xml version="1.0" encoding="UTF-8" ?>
<umod:unimod xmlns:umod="http://www.unimod.org/xmlns/schema/unimod_2" majorVersion="2" minorVersion="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.unimod.org/xmlns/schema/unimod_2 unimod_2.xsd">
<umod:elements>
<umod:elem avge_mass="1.00794" full_name="Hydrogen" mono_mass="1.007825035" title="H"/>
<umod:elem avge_mass="2.014101779" full_name="Deuterium" mono_mass="2.014101779" title="2H"/>
<umod:elem avge_mass="6.941" full_name="Lithium" mono_mass="7.016003" title="Li"/>
<umod:elem avge_mass="12.0107" full_name="Carbon" mono_mass="12" title="C"/>
答案 0 :(得分:1)
看起来该文件是MIME编码的“多部分”文件,其中包含(至少)两个组件文件。
您可以使用MIME解码器解码多部分。
第一个组件文件看起来像一个简单的“name = value”属性文件
第二个组件文件是XML。
我不知道这是否相关,但搜索Mascot file format
给了我这个参考页面:
此外,当我搜索parser "x-mascot"
和parser mascot
时,有一些有趣的点击。如果您可以找到现有的解析器,那么您可以节省自己的实施工作。