设计模式

数据库

DHGV(万人变异频率数据库)主要存储了项目信息、样本信息、变异信息、基因型频率和等位基因频率信息。 实体关系图如下:

_images/DHGV.ER.png

数据表

  • sample表(包含样本信息、项目信息)
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
{
    "province": {
        "index": "T", 
        "remark": "", 
        "description": "省/州", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "Hubei", 
        "unit": ""
    }, 
    "city": {
        "index": "T", 
        "remark": "", 
        "description": "城市", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "Wuhan", 
        "unit": ""
    }, 
    "variantSetID": {
        "index": "T", 
        "remark": "", 
        "description": "变异集ID", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "1000Genomes", 
        "unit": ""
    }, 
    "organization": {
        "index": "T", 
        "remark": "", 
        "description": "项目所在组织", 
        "level": "D2", 
        "allow": "", 
        "type": "string", 
        "example": "The 1000 Genomes Project", 
        "unit": ""
    }, 
    "callSetID": {
        "index": "T", 
        "remark": "", 
        "description": "样本ID", 
        "level": "D7", 
        "allow": "", 
        "type": "int", 
        "example": "21758", 
        "unit": ""
    }, 
    "country": {
        "index": "T", 
        "remark": "", 
        "description": "国家", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "China", 
        "unit": ""
    }, 
    "age": {
        "index": "T", 
        "remark": "", 
        "description": "年龄", 
        "level": "D7", 
        "allow": "", 
        "type": "int", 
        "example": "26", 
        "unit": ""
    }, 
    "seqDepth": {
        "index": "T", 
        "remark": "", 
        "description": "测序深度", 
        "level": "D7", 
        "allow": "", 
        "type": "int", 
        "example": "30", 
        "unit": "X"
    }, 
    "phenotype": {
        "index": "F", 
        "remark": "", 
        "description": "表型", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "N/A", 
        "unit": ""
    }, 
    "isControl": {
        "index": "T", 
        "remark": "", 
        "description": "是否为正常人", 
        "level": "D7", 
        "allow": "[T,F]", 
        "type": "string", 
        "example": "T", 
        "unit": ""
    }, 
    "gender": {
        "index": "T", 
        "remark": "", 
        "description": "性别", 
        "level": "D7", 
        "allow": "[male,female]", 
        "type": "string", 
        "example": "male", 
        "unit": ""
    }, 
    "variantSetName": {
        "index": "T", 
        "remark": "", 
        "description": "项目名称", 
        "level": "D2", 
        "allow": "", 
        "type": "string", 
        "example": "1000 Genomes Project", 
        "unit": ""
    }, 
    "callSetName": {
        "index": "T", 
        "remark": "", 
        "description": "样本名称", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "NA06984", 
        "unit": ""
    }, 
    "seqType": {
        "index": "T", 
        "remark": "", 
        "description": "测序类型", 
        "level": "D7", 
        "allow": "[WGS,WES,CHIP-Seq]", 
        "type": "string", 
        "example": "WGS", 
        "unit": ""
    }, 
    "ethnicity": {
        "index": "T", 
        "remark": "", 
        "description": "种族", 
        "level": "D7", 
        "allow": "", 
        "type": "string", 
        "example": "CHB", 
        "unit": ""
    }
}
  • variation表(包含变异信息、基因型频率和等位基因频率信息)
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
{
    "genotypeCount": {
        "index": "F", 
        "remark": "", 
        "description": "基因型个数", 
        "level": "D5", 
        "allow": "", 
        "type": "int", 
        "example": "95", 
        "unit": ""
    }, 
    "end": {
        "index": "T", 
        "remark": "", 
        "description": "染色体终止坐标", 
        "level": "D5", 
        "allow": "[1, 999999999]", 
        "type": "int", 
        "example": "10000004", 
        "unit": ""
    }, 
    "variantNames": {
        "index": "T", 
        "remark": "", 
        "description": "变异名称", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "rs570330528", 
        "unit": ""
    }, 
    "totalCallSetCount": {
        "index": "F", 
        "remark": "", 
        "description": "总共覆盖的样本数", 
        "level": "D5", 
        "allow": "", 
        "type": "int", 
        "example": "2599", 
        "unit": ""
    }, 
    "avgReadDepth": {
        "index": "T", 
        "remark": "", 
        "description": "平均读段深度", 
        "level": "D5", 
        "allow": "", 
        "type": "double", 
        "example": "4", 
        "unit": ""
    }, 
    "totalReadDepth": {
        "index": "T", 
        "remark": "", 
        "description": "总共读段深度", 
        "level": "D5", 
        "allow": "", 
        "type": "int", 
        "example": "10396", 
        "unit": ""
    }, 
    "alleleFrequency": {
        "index": "F", 
        "remark": "", 
        "description": "等位基因频率", 
        "level": "D5", 
        "allow": "[0, 1]", 
        "type": "double", 
        "example": "0.03674", 
        "unit": ""
    }, 
    "alleleCount": {
        "index": "F", 
        "remark": "", 
        "description": "等位基因个数", 
        "level": "D5", 
        "allow": "", 
        "type": "int", 
        "example": "191", 
        "unit": ""
    }, 
    "genotypeCallSetList": {
        "index": "T", 
        "remark": "", 
        "description": "覆盖的样本ID列表", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "too long to display", 
        "unit": ""
    }, 
    "start": {
        "index": "T", 
        "remark": "", 
        "description": "染色体起始坐标(0起始)", 
        "level": "D5", 
        "allow": "[0, 999999999]", 
        "type": "int", 
        "example": "10000003", 
        "unit": ""
    }, 
    "genotypeFrequency": {
        "index": "F", 
        "remark": "", 
        "description": "基因型频率", 
        "level": "D5", 
        "allow": "[0, 1]", 
        "type": "double", 
        "example": "0.03655", 
        "unit": ""
    }, 
    "alleleCallSetList": {
        "index": "T", 
        "remark": "", 
        "description": "覆盖的样本ID列表", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "too long to display", 
        "unit": ""
    }, 
    "alternateBases": {
        "index": "T", 
        "remark": "", 
        "description": "变异序列碱基", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "A,G", 
        "unit": ""
    }, 
    "referenceName": {
        "index": "T", 
        "remark": "", 
        "description": "染色体名称", 
        "level": "D5", 
        "allow": "[chr1..chr22, chrX, chrY]", 
        "type": "string", 
        "example": "chr1", 
        "unit": ""
    }, 
    "allele": {
        "index": "T", 
        "remark": "", 
        "description": "等位基因", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "G", 
        "unit": ""
    }, 
    "variationID": {
        "index": "T", 
        "remark": "", 
        "description": "变异ID", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "chr1-1000003", 
        "unit": ""
    }, 
    "referenceBases": {
        "index": "T", 
        "remark": "", 
        "description": "参考序列碱基", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "A", 
        "unit": ""
    }, 
    "genotype": {
        "index": "T", 
        "remark": "", 
        "description": "基因型", 
        "level": "D5", 
        "allow": "", 
        "type": "string", 
        "example": "G|G", 
        "unit": ""
    }
}