python txt文件有监督的学习/无监督的学习和准确性测试

时间:2020-07-01 08:39:23

标签: python machine-learning

专家

我想问你是否有办法测试两个文本文件的准确性。

该试验的主要目的是评估几种正则表达式模式的纠错功能的性能。

此外,我想知道是否可以使用scikit-learn或NLTK函数来检查准确性。

这里需要更多细节。

  1. 有2个文件。 (答案文件:gni07_answer.txt,测试文件:gni07_testfile)

  2. 是否有机会调整有监督或无监督学习方法以改进测试集,使其更接近答案文本文件?

  3. 我想知道两个txt文件之间的区别,并计算与答案文件相比的准确性。

  4. 我想忽略换行错误。

  5. 每个文件仅稍有不同,例如对于测试文件,其写为<5 1 UTR>,但在答案集中为<5'UTR>。这就是我想要捕捉的结果,并将其转换为准确性。

以下是每个文件的摘录

<1:gni07_answer>

GADD153和GADD34的表达在30倍以上 所有时间点。

长时间的内质网应激会干扰线粒体,引发氧化 压力。

Ca2 +诱导的氧化应激可导致细胞死亡和活化 NFкB信号转导(Ji and Kaplowitz,2006)。

在这项研究中,NFKBIE在6 h时差异表达(2.6倍) 和12小时(2.2倍),但在24小时时并未明显表达 (1.1倍)。

NFKBIE被称为NFκB抑制蛋白家族的成员 (IκBs)在不受刺激的细胞中与NFκB相互作用(Komissarova等 等人,2008年),从 寡核苷酸微阵列,显示了6个显着的基因 选择上调并进行半定量RT-PCR 分析。

<2:gni07_test>

GADD153和GADD34的表达在30倍以上 所有时间点。长时间的ER应激会干扰线粒体, 触发氧化应激。 Ca2 +诱导的氧化应激可能导致 细胞死亡和NFкB信号的激活(Ji和Kaplowitz, 2006)。在这项研究中,NFKBIE在6 h时差异表达 (2.6倍)和12小时(2.2倍),但在24小时时并不明显 表达(1.1倍)。 NFKBIE被称为 与NFκB相互作用的NFκB抑制蛋白(IκBs) 未刺激的细胞(Komissarova等,2008),以验证该基因 寡核苷酸微阵列的表达谱,6个基因 表现出明显的上调选择并受到 半定量RT-PCR分析。

例如,在这种情况下,单词有2折和2折的区别。 因此准确度是90.77

任何使用机器学习方法来提高性能的建议都会受到赞赏。

0 个答案:

没有答案