暗能星系

    • 登录
    • 搜索

    Accelerating Single-cell Bioinformatics with N-dimensional Arrays in the Cloud

    单细胞分析
    1
    2
    5
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • I
      ice-melt 最后由 编辑

      Accelerating Single-cell Bioinformatics with N-dimensional Arrays in the Cloud - Ryan Williams.pptx

      1 条回复 最后回复 回复 引用 0
      • I
        ice-melt 最后由 编辑

        https://github.com/lasersonlab/single-cell-experiments

        项目说明

        theis lab # scanpy
        laserson lab # single-cell-experiments (zappy,zarr,ndarray.scala)

        1. 支持读取csv,adata,zarr,zarr_gcs(gcs,g3fs,谷歌亚/马逊云端数据)格式的单细胞数据
        2. 读取数据后依赖zarr包拆分数据成块(缺点:数据经过重复读取,每次数据读取都是全加载)
        3. adata 数据取矩阵(.X属性的值)数据通过指定块大小后按下标索引map到不同的块对象,即PairedRDD(此时的value是zarr,可能为压缩格式,参考代码 zarr_spark.py#read_zarr_chunk|get_chunk_indices)
        4. 对RDD进行计算(参考代码anndata_spark.py#log1p)

        该项目衍生的问题:

        1. 目前该项目无维护,源代码未指明依赖版本关系,无法运行
        2. 项目分析过程无法交互展示,必须定义流程过程和控制参数
        1 条回复 最后回复 回复 引用 0
        • First post
          Last post
        Powered by 暗能星系