暗能星系

    • 登录
    • 搜索

    通过Hbase构建多组学融合数据库

    生物信息分析
    1
    3
    19
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • A
      anneng 最后由 anneng 编辑

      nt:
      accid
      seq:seqt, seqd(没有该字段), taxid,seqs
      accid:序列id 唯一标识
      seqt:序列标题
      seqd:序列描述(没有该字段)
      seqs:核酸序列
      taxid:物种id

      可以支持的应用场景:
      1.通过accid直接查询到该序列的信息
      2.通过序列比对查询对应的物种
      不能很好支持的场景:
      3.通过物种id查询该物种的序列就需要遍历数据库 肯定很慢

      单独存放一张表 存储物种和序列的对应关系:
      tax:
      taxid
      tax:name,clade,son
      seq:accid
      clade 就是界门纲目科属种的描述 son为当前taxid的一级子节点
      通过这种方式来解决问题3 这样做也可以方便我们初始化物种树 而且可以很方便知道这个物种当前有哪些序列 可以方便我们只blast某一个子集 例如只搜索动物、微生物

      1 条回复 最后回复 回复 引用 0
      • A
        anneng 最后由 编辑

        https://www.sitepoint.com/hierarchical-data-database/
        如何用数据库存储树状结构

        1 条回复 最后回复 回复 引用 0
        • A
          anneng 最后由 编辑

          Introduction to Apache HBase(part 2) _ by Igor Skokov _ Medium.pdf
          用hbase存储目录结构

          1 条回复 最后回复 回复 引用 0
          • First post
            Last post
          Powered by 暗能星系