标签: python apache-spark bioinformatics
最近,我不得不使用Python或Scala在SPARK上处理BWA或其他对齐工具生成的bam文件,如何将该二进制文件转换为RDD,以便可以对每个读取序列和其他信息进行一些统计?任何人都可以有经验或举个例子吗?我已经读了一点PySpark和Spark-bam的binaryRecords()函数,看来效果不佳。
答案 0 :(得分:0)
您可以在python中使用PySam。在这里查看文档: https://pysam.readthedocs.io/en/latest/api.html