python - python txt文件有监督的学习/无监督的学习和准确性测试

专家

我想问你是否有办法测试两个文本文件的准确性。

该试验的主要目的是评估几种正则表达式模式的纠错功能的性能。

此外，我想知道是否可以使用scikit-learn或NLTK函数来检查准确性。

这里需要更多细节。

有2个文件。（答案文件：gni07_answer.txt，测试文件：gni07_testfile）
是否有机会调整有监督或无监督学习方法以改进测试集，使其更接近答案文本文件？
我想知道两个txt文件之间的区别，并计算与答案文件相比的准确性。
我想忽略换行错误。
每个文件仅稍有不同，例如对于测试文件，其写为<5 1 UTR>，但在答案集中为<5'UTR>。这就是我想要捕捉的结果，并将其转换为准确性。

以下是每个文件的摘录

<1：gni07_answer>

GADD153和GADD34的表达在30倍以上所有时间点。

长时间的内质网应激会干扰线粒体，引发氧化压力。

Ca2 ＋诱导的氧化应激可导致细胞死亡和活化 NFкB信号转导（Ji and Kaplowitz，2006）。

在这项研究中，NFKBIE在6 h时差异表达（2.6倍）和12小时（2.2倍），但在24小时时并未明显表达（1.1倍）。

NFKBIE被称为NFκB抑制蛋白家族的成员（IκBs）在不受刺激的细胞中与NFκB相互作用（Komissarova等等人，2008年），从寡核苷酸微阵列，显示了6个显着的基因选择上调并进行半定量RT-PCR 分析。

<2：gni07_test>

GADD153和GADD34的表达在30倍以上所有时间点。长时间的ER应激会干扰线粒体，触发氧化应激。 Ca2 +诱导的氧化应激可能导致细胞死亡和NFкB信号的激活（Ji和Kaplowitz， 2006）。在这项研究中，NFKBIE在6 h时差异表达（2.6倍）和12小时（2.2倍），但在24小时时并不明显表达（1.1倍）。 NFKBIE被称为与NFκB相互作用的NFκB抑制蛋白（IκBs）未刺激的细胞（Komissarova等，2008），以验证该基因寡核苷酸微阵列的表达谱，6个基因表现出明显的上调选择并受到半定量RT-PCR分析。

例如，在这种情况下，单词有2折和2折的区别。因此准确度是90.77

任何使用机器学习方法来提高性能的建议都会受到赞赏。

python txt文件有监督的学习/无监督的学习和准确性测试

0 个答案: