图像处理:质谱(pdf)到密度文本文件

时间:2018-01-24 01:39:23

标签: pdf image-processing bioinformatics

从图像处理领域外面讲,我认为我有一个简单的任务,但我不知道从哪里开始。

挑战在于,一些实验室喜欢以PDF格式发布他们的质谱数据。虽然足以验证他们的说法,但它对定量分析基本上没用。我想阅读质谱密度:

enter image description here

采用以下格式:

3947>> Voyager Spec #1[BP = 536.8, 10241]" 
TYPE MASSSPEC
499.985486  760.097
500.007777  754.159
500.030068  774.162
500.052359  805.103
500.074651  821.98
500.096944  847.921
500.119237  864.798
...

第1列是m / z(x轴),第2列是(相对)丰度(y轴)

这可能吗?是否存在可以执行此任务的工具?实施这样的工具需要多长时间?

1 个答案:

答案 0 :(得分:1)

我首先想到的是使用像GIMP这样的程序来编辑轴和标签,精确缩小到图形本身的大小,以便左下角的第一个像素代表图形原点。然后你可以使用一个图像处理库(很多存在 - 我喜欢Ruby中的RMagick)将图像处理为黑白图像并将数据作为数组阵列获取。 (您可能希望旋转它以使其更容易)。我们的想法是在给定X轴的特定点的情况下使每个阵列表示一列Y轴数据。这样,您只需计算黑色像素即可获得Y值。

我确信有一些方法可以编程检测图形边界并过滤掉文本,但这会增加很多复杂性。

希望有所帮助