通过Hbase构建多组学融合数据库

anneng

nt:
accid
seq:seqt, ~~seqd(没有该字段)~~, taxid,seqs
accid:序列id 唯一标识
seqt:序列标题
~~seqd:序列描述(没有该字段)~~
seqs:核酸序列
taxid:物种id

可以支持的应用场景：
1.通过accid直接查询到该序列的信息
2.通过序列比对查询对应的物种
不能很好支持的场景：
3.通过物种id查询该物种的序列就需要遍历数据库肯定很慢

单独存放一张表存储物种和序列的对应关系:
tax:
taxid
tax:name,clade,son
seq:accid
clade 就是界门纲目科属种的描述 son为当前taxid的一级子节点
通过这种方式来解决问题3 这样做也可以方便我们初始化物种树而且可以很方便知道这个物种当前有哪些序列可以方便我们只blast某一个子集例如只搜索动物、微生物

anneng

https://www.sitepoint.com/hierarchical-data-database/
如何用数据库存储树状结构

anneng

Introduction to Apache HBase(part 2) _ by Igor Skokov _ Medium.pdf
用hbase存储目录结构