Accelerating Single-cell Bioinformatics with N-dimensional Arrays in the Cloud
-
-
https://github.com/lasersonlab/single-cell-experiments
项目说明
theis lab # scanpy
laserson lab # single-cell-experiments (zappy,zarr,ndarray.scala)- 支持读取csv,adata,zarr,zarr_gcs(gcs,g3fs,谷歌亚/马逊云端数据)格式的单细胞数据
- 读取数据后依赖zarr包拆分数据成块(缺点:数据经过重复读取,每次数据读取都是全加载)
- adata 数据取矩阵(.X属性的值)数据通过指定块大小后按下标索引map到不同的块对象,即PairedRDD(此时的value是zarr,可能为压缩格式,参考代码 zarr_spark.py#read_zarr_chunk|get_chunk_indices)
- 对RDD进行计算(参考代码anndata_spark.py#log1p)
该项目衍生的问题:
- 目前该项目无维护,源代码未指明依赖版本关系,无法运行
- 项目分析过程无法交互展示,必须定义流程过程和控制参数