如何在SPARK中读取bam(对齐信息)文件?

时间:2018-10-31 02:57:27

标签: python apache-spark bioinformatics

最近,我不得不使用Python或Scala在SPARK上处理BWA或其他对齐工具生成的bam文件,如何将该二进制文件转换为RDD,以便可以对每个读取序列和其他信息进行一些统计?任何人都可以有经验或举个例子吗?我已经读了一点PySpark和Spark-bam的binaryRecords()函数,看来效果不佳。

1 个答案:

答案 0 :(得分:0)

您可以在python中使用PySam。在这里查看文档: https://pysam.readthedocs.io/en/latest/api.html