通过Hbase构建多组学融合数据库
-
nt:
accid
seq:seqt,seqd(没有该字段), taxid,seqs
accid:序列id 唯一标识
seqt:序列标题
seqd:序列描述(没有该字段)
seqs:核酸序列
taxid:物种id可以支持的应用场景:
1.通过accid直接查询到该序列的信息
2.通过序列比对查询对应的物种
不能很好支持的场景:
3.通过物种id查询该物种的序列就需要遍历数据库 肯定很慢单独存放一张表 存储物种和序列的对应关系:
tax:
taxid
tax:name,clade,son
seq:accid
clade 就是界门纲目科属种的描述 son为当前taxid的一级子节点
通过这种方式来解决问题3 这样做也可以方便我们初始化物种树 而且可以很方便知道这个物种当前有哪些序列 可以方便我们只blast某一个子集 例如只搜索动物、微生物 -
-