
基因组学作为现代生物学的核心领域,经历了从手工测序到高通量自动化测序的革命性转变。这一发展历程不仅改变了我们对生命本质的认识,也为医学、农业和生物技术的创新提供了强大的工具。
20世纪70年代,两种革命性的DNA测序方法几乎同时诞生。美国科学家弗雷德里克·桑格开发了双脱氧链终止法(Sanger测序),而美国化学家马克西姆和吉尔伯特则发明了化学降解法。这两种方法标志着人类首次能够准确读取DNA序列的碱基顺序,为基因组学的诞生奠定了基础。
桑格测序法的原理类似于“在建造过程中故意制造断裂点”。通过在DNA合成过程中加入特殊的双脱氧核苷酸,使DNA链在特定位置终止延伸,最终通过分离不同长度的DNA片段来推断原始序列。这一方法在1977年首次完整测定了噬菌体φX174的基因组,全长仅5386个碱基,但这已经是人类科学史上的重大突破。
桑格测序法凭借其高准确性和可靠性,在长达30年的时间里一直是基因组测序的金标准,直到21世纪初才逐渐被新一代测序技术所取代。
进入20世纪90年代,测序技术迎来了自动化革命。美国应用生物系统公司(ABI)开发的毛细管电泳测序仪,将荧光标记技术与计算机自动化分析相结合,使测序速度提升了数百倍。每个碱基用不同颜色的荧光染料标记,当DNA片段通过激光检测器时,计算机自动识别并记录碱基序列。
自动化测序技术的发展可以用数据来直观展示其进步速度。在人类基因组计划启动初期,测序成本高达每碱基10美元,而到了2003年项目完成时,成本已降至每碱基0.01美元。
2005年,454公司推出了第一台商业化的新一代测序仪,标志着基因组学进入了高通量测序时代。与传统桑格测序相比,新一代测序技术具有并行处理的优势,能够同时对数百万个DNA片段进行测序。这就像从“单车道”升级为“多车道高速公路”,极大地提高了通行效率。
新一代测序技术主要包括三类具有代表性的技术平台。第一类以因美纳(Illumina)公司的可逆终止子技术为代表,通过桥式扩增和合成测序方法,实现了超高通量的短片段(短读长)测序。第二类平台包括安捷伦(Ion Torrent)的半导体测序技术,利用DNA合成过程中释放的氢离子进行碱基检测。第三类为单分子实时测序技术,以太平洋生物(PacBio)和牛津纳米孔(Oxford Nanopore)公司为代表,可以直接读取长达数万甚至数十万碱基的DNA片段,有效突破了传统短读长的限制。
第三代测序技术的单分子长读长特性,使其在解析复杂基因组结构、检测结构变异和表观遗传修饰方面具有独特优势,特别适合中国科学家在研究复杂农作物基因组时使用。

人类基因组计划(Human Genome Project,HGP)是人类科学史上最宏大的国际合作项目之一,其影响力可与曼哈顿计划和阿波罗登月计划相媲美。这个项目不仅绘制了人类基因组的完整图谱,也深刻改变了生物学研究的范式。
1990年,由美国、英国、日本、法国、德国和中国等多国科学家共同参与的人类基因组计划正式启动。项目的主要目标是测定人类基因组中全部30亿个碱基对的序列,识别所有基因,并将这些信息存储在数据库中供全世界科学家免费使用。
项目实施过程中采用了“分层策略”。首先将人类基因组切割成大约15万个细菌人工染色体(BAC)克隆,每个克隆包含约15万个碱基对。然后对每个克隆进行测序,最后通过计算机将这些片段拼接成完整的基因组序列。这种策略类似于完成一幅巨大的拼图游戏,需要精确的组织和协调。
人类基因组计划的进展情况可以通过下表清晰展示:
中国于1999年9月正式加入人类基因组计划,成为继美、英、日、德、法之后的第六个参与国。尽管加入时间较晚,但中国科学家承担了人类3号染色体短臂上约3000万个碱基对的测序任务,约占人类基因组总量的1%。这一贡献使中国成为唯一参与该计划的发展中国家,展现了中国在基因组学领域的实力。
中国人类基因组计划的实施主要由中国科学院遗传研究所人类基因组中心(北京)和华大基因研究中心(深圳)承担。特别值得一提的是,华大基因在项目后期发挥了重要作用,不仅按时完成了分配的测序任务,还建立了完善的基因组测序平台和生物信息学分析体系。
中国在人类基因组计划中的参与,不仅提升了国际科学界对中国科研实力的认可,更重要的是培养了一批优秀的基因组学人才,为中国后续在基因组学领域的快速发展奠定了坚实基础。
人类基因组计划完成后,中国在基因组学领域的研究持续推进并取得了多项重要成果。2008年,深圳华大基因完成了第一个亚洲人(炎黄一号)基因组测序,这是首个由中国科学家独立完成的个人基因组。随后,华大基因又主导完成了大熊猫基因组、家蚕基因组等多个重要物种的基因组测序项目。
在农业基因组学方面,中国科学家取得了令世界瞩目的成就。2002年,中国科学院和国家杂交水稻工程技术研究中心领衔完成了籼稻基因组精细图谱。2010年,深圳华大基因联合多国科学家完成了黄瓜、西瓜等重要蔬菜作物的基因组测序。这些成果不仅具有重要的科学价值,也为中国农业育种提供了重要的基因资源。
比较基因组学和进化基因组学是基因组学领域的两个重要分支,它们通过比较不同物种或同一物种不同个体的基因组序列,揭示生命的进化历程和物种间的亲缘关系。这种研究方法就像考古学家通过比较不同时期的文物来推断历史演变一样,通过比较基因组序列来追溯生命的历史。
比较基因组学的核心思想是通过比较不同物种的基因组序列,识别保守区域和变异区域。保守区域通常具有重要的生物学功能,在进化过程中受到选择压力的保护而保持相对稳定。相反,变异区域则反映了物种适应不同环境的进化创新。
在分子水平上,基因组的保守性可以通过序列同源性来衡量。人类与黑猩猩的基因组序列相似度高达98.8%,这反映了两者的近缘关系。但正是那1.2%的差异,造就了人类独特的认知能力和语言能力。人类与小鼠的基因组序列相似度约为85%,尽管外形差异巨大,但许多基本的生理功能和代谢通路在两者之间高度保守。
比较基因组学的研究揭示了一个有趣的现象,即基因组大小与物种复杂度并不总是正相关。人类基因组包含约30亿个碱基对和约20000个蛋白质编码基因,而水稻基因组仅有约4亿个碱基对,但蛋白质编码基因数量却超过37000个。这说明物种的复杂性不仅取决于基因数量,更重要的是基因的调控方式和蛋白质的功能多样性。
进化基因组学利用基因组数据重建物种的进化历史和系统发育关系。通过比较不同物种基因组中同源基因的序列差异,科学家可以估算物种分化的时间,构建进化树,并推断祖先物种的基因组特征。
分子钟假说是进化基因组学的重要理论基础。该假说认为,在没有强烈选择压力的情况下,基因序列中的中性突变以相对恒定的速率积累。通过比较不同物种同源基因的序列差异数量,可以估算它们分化的时间。这就像根据钟表的指针位置来判断时间一样,分子序列的差异程度反映了进化时间的长短。
中国科学家在进化基因组学领域做出了重要贡献。2014年,昆明动物研究所等机构联合完成了树鼩基因组测序和分析,为灵长类动物的进化研究提供了新的参考物种。2016年,北京大学研究团队通过比较基因组学分析,揭示了藏族人群高原适应的遗传机制,发现EPAS1和EGLN1等基因的变异帮助藏族人适应低氧环境。
进化基因组学的研究不仅有助于理解生命的起源和演化,也为现代医学提供了重要启示。许多人类疾病相关基因在模式生物中都有保守的同源基因,通过比较基因组学研究可以更好地理解疾病的分子机制。
基因组重排是物种进化过程中的重要机制之一。染色体的倒位、易位、重复和缺失等结构变异,可以导致基因功能的改变或新基因的产生,从而推动物种分化。比较基因组学研究发现,人类和黑猩猩之间存在多处染色体重排事件,其中人类2号染色体是由两条祖先染色体融合而成的。
在植物基因组进化中,全基因组复制(Whole Genome Duplication,WGD)事件扮演着重要角色。研究表明,被子植物在进化过程中至少经历了两次全基因组复制事件,这为植物提供了大量的遗传原料,促进了新性状的产生和物种多样性的增加。中国科学家对棉花基因组的研究发现,棉花在约600万年前经历了全基因组复制事件,这与棉花纤维发育相关基因的扩增密切相关。
下表总结了几种重要模式生物的基因组特征和进化关系:

转录组是指某一特定细胞、组织或生物体在特定生理状态下转录出的所有RNA分子的集合。转录组学研究通过分析基因的表达模式,揭示基因如何响应内外环境变化,调控生物体的生长发育和生理功能。
早期的转录组研究主要依赖于基因芯片技术。基因芯片通过在固体基片上固定数千个已知基因的探针,利用荧光标记的样本RNA与探针杂交,检测不同基因的表达水平。这种技术虽然可以同时检测大量基因的表达,但受限于预先设计的探针,无法发现新的转录本,且动态范围有限。
RNA测序技术(RNA-seq)的出现彻底改变了转录组研究的格局。2008年,基于新一代测序技术的RNA-seq方法正式应用于转录组研究。该技术首先将样本中的RNA反转录成cDNA,然后对cDNA进行高通量测序,最后通过生物信息学分析将测序读段比对到参考基因组,定量各个基因的表达水平。
RNA-seq技术具有多方面的优势。第一,它不依赖于预先设计的探针,可以检测所有转录本,包括新的转录本和未知基因。第二,它的动态范围极广,可以准确检测从极低到极高表达水平的基因。第三,它能够精确到单个碱基的分辨率,可以检测可变剪接、RNA编辑等转录后修饰事件。
转录组测序产生的原始数据需要经过一系列生物信息学分析步骤才能获得有意义的生物学结论。整个分析流程可以分为数据质控、序列比对、表达量定量和差异表达分析等关键步骤。
数据质控是第一步,主要目的是评估测序数据的质量并去除低质量序列。常用的质控工具如FastQC(测序质量控制),可以评估碱基质量分布、GC含量、序列重复率等指标。如果发现低质量碱基或接头序列污染,需要使用Trimmomatic(去除低质量序列及接头)等工具进行修剪和过滤。
序列比对是将测序读段定位到参考基因组或转录组的过程。常用的比对软件包括HISAT2(高速比对工具)、STAR(剪接读段比对软件)等。这些软件能够处理RNA-Seq特有的剪接比对问题,准确识别跨越外显子边界的读段。比对完成后,使用SAMtools(结果整理与索引工具)等对比对结果进行排序和索引,为后续分析做准备。
表达量定量是计算每个基因或转录本表达水平的步骤。常用的定量方法包括基于比对的计数(如featureCounts)和基于模型的估算(如kallisto、Salmon)。表达量通常用FPKM(每千个碱基的转录本每百万映射读取片段数)或TPM(每百万转录本)来表示,这些标准化方法可以消除基因长度和测序深度的影响,使不同样本和不同基因之间的表达量具有可比性。
差异表达分析是转录组研究的核心内容,通过比较不同实验条件下基因表达的差异,识别响应特定处理或参与特定生物学过程的关键基因。常用的统计方法包括DESeq2和edgeR,它们基于负二项分布模型来检验基因表达的显著性差异。
中国科学家在转录组学研究领域取得了多项重要成果。在农业领域,中国农业大学的研究团队通过转录组测序揭示了玉米耐旱的分子机制,发现了一批响应干旱胁迫的关键转录因子和代谢途径基因,为培育抗旱玉米品种提供了理论基础。
在医学领域,复旦大学附属肿瘤医院的研究团队通过对数千例肺癌患者的肿瘤组织进行转录组测序,构建了中国人群肺癌的分子分型图谱,识别了多个与预后和药物响应相关的基因标志物。这些研究不仅提高了对肺癌发病机制的认识,也为精准医疗提供了重要依据。
在基础生物学研究方面,中国科学院动物研究所的研究团队通过对斑马鱼胚胎发育不同阶段的转录组分析,绘制了脊椎动物胚胎发育的基因表达图谱,揭示了胚层分化和器官形成的转录调控网络。这些研究为理解发育生物学的基本规律提供了重要线索。

单细胞测序技术代表着基因组学研究的最新前沿,它能够在单个细胞的水平上解析基因表达和基因组特征,揭示组织和器官中细胞的异质性。这项技术就像从“群体画像”转向“个体特写”,使我们能够以前所未有的分辨率观察生命的复杂性。
单细胞测序技术的核心挑战在于如何从微量的单细胞样本中获得足够的遗传物质进行测序。一个典型的真核细胞仅含有约10皮克(10的负11次方克)的RNA,远低于常规测序所需的样本量。为了解决这一问题,科学家开发了多种单细胞分离和核酸扩增技术。
单细胞分离是第一步,主要有三种方法。显微操作法使用显微镜和微型吸管手动挑取单个细胞,优点是可以选择性地分离特定细胞,但通量较低。荧光激活细胞分选(FACS)利用流式细胞仪根据细胞表面标记物对细胞进行分选,可以高通量地分离特定类型的细胞。微流控技术是目前最先进的方法,通过微流控芯片将单个细胞捕获在纳升级的液滴或微孔中,实现大规模并行处理。
美国10x Genomics公司开发的Chromium系统是目前最为广泛应用的单细胞测序平台之一。该系统通过微流控技术,将单个细胞与带有独特条形码的磁珠共同包裹于纳升级的液滴中。在每个液滴内部,细胞被裂解,释放出的RNA与磁珠表面的引物结合并进行逆转录反应。这样,每个细胞生成的cDNA分子都会被特定的细胞条形码标记,从而在后续测序和数据分析过程中,可以精确将每条测序读段分配到所属的单个细胞。
单细胞测序技术的发展经历了三个主要阶段,从2009年的首个单细胞RNA测序研究,到2014年液滴微流控技术的商业化应用,再到2020年多组学联合分析平台的成熟,每一次技术革新都极大地推动了单细胞生物学研究的发展。
单细胞测序产生的数据具有独特的特点,需要专门的分析方法。与常规转录组数据相比,单细胞数据的维度更高(细胞数可达数万到数十万),噪音更大(存在技术性dropout事件),且细胞间异质性显著。
单细胞数据分析的标准流程包括质量控制、数据归一化、高变异基因筛选、降维分析和细胞聚类等步骤。质量控制主要是过滤掉低质量细胞和双细胞,常用的标准包括检测到的基因数、总UMI(唯一分子标识符)数和线粒体基因表达比例。数据归一化旨在消除细胞间测序深度的差异,常用方法包括CPM(每百万计数)归一化和更先进的SCTransform方法。
降维和细胞聚类是单细胞分析的核心步骤。由于单细胞数据包含数万个基因维度,直接分析计算量巨大且容易受到噪音干扰。降维方法如主成分分析(主成分分析,PCA)和t-SNE(t-分布随机邻域嵌入)可以将高维数据投影到二维或三维空间,使细胞间的相似性和差异性可以直观地展现出来。在降维结果的基础上,可以使用Louvain算法或Leiden算法对细胞进行聚类,识别出不同的细胞类型或细胞状态。
下表展示了单细胞测序在识别不同组织细胞类型方面的应用:
单细胞测序技术在生命科学研究中的应用日益广泛,推动了多个领域的重大突破。在发育生物学领域,单细胞测序能够追踪细胞在发育过程中的命运转变。中国科学家利用单细胞测序技术重构了小鼠胚胎发育的细胞谱系图谱,揭示了从受精卵到囊胚阶段每个细胞的分化轨迹。
在肿瘤研究领域,单细胞测序揭示了肿瘤内部的细胞异质性,这种异质性是肿瘤耐药和复发的重要原因。北京大学的研究团队对肝癌患者的肿瘤组织进行单细胞测序,发现肿瘤中存在多个具有不同增殖能力和转移潜能的癌细胞亚群,并识别了与免疫治疗响应相关的免疫微环境特征。
在神经科学领域,单细胞测序为绘制大脑细胞图谱提供了强有力的工具。美国艾伦脑科学研究所和中国科学院的联合团队使用单细胞测序技术绘制了小鼠大脑的完整细胞图谱,识别了超过100种不同的神经元类型,为理解大脑的结构和功能提供了基础数据。
空间转录组技术是单细胞测序的最新发展方向,它能够在保持组织空间信息的同时获得单细胞或接近单细胞分辨率的转录组数据。这项技术将单细胞测序与组织成像相结合,使科学家能够在原位研究细胞的相互作用和组织微环境。
中国科学家在单细胞测序技术开发和应用方面取得了多项国际领先的成果。2018年,北京大学和中国科学院的联合团队发表了首个人类细胞图谱的中国数据集,覆盖了60多种人体组织和器官,为理解人体细胞多样性提供了重要资源。
在技术创新方面,华大基因开发了基于组合索引的单细胞测序方法DNBelab C4,该技术通过改进的微珠系统显著降低了单细胞测序的成本,使大规模细胞图谱计划成为可能。清华大学的研究团队开发了stereo-seq空间转录组技术,实现了纳米级分辨率的空间基因表达分析,为组织微环境研究提供了新工具。
在应用研究方面,浙江大学的研究团队利用单细胞测序技术系统研究了新冠病毒感染患者的免疫细胞变化,揭示了不同严重程度患者免疫应答的差异,为理解疾病进展和开发治疗策略提供了重要线索。中科院上海生命科学研究院的团队使用单细胞测序绘制了中国汉族人群的免疫细胞图谱,为精准医疗和个性化免疫治疗奠定了基础。
1. 假设一个研究项目需要测序10个人类全基因组(每个基因组30亿碱基对),分别计算在1995年、2005年和2020年完成该项目所需的成本。基于成本数据,分析测序技术进步对基因组学研究普及化的影响。
答案:
根据测序成本数据进行计算:
1995年成本:5000美元/百万碱基 × 3000百万碱基 × 10人 = 1.5亿美元
2005年成本:50美元/百万碱基 × 3000百万碱基 × 10人 = 150万美元
2020年成本:0.01美元/百万碱基 × 3000百万碱基 × 10人 = 300美元
分析:测序成本在25年间下降了约50万倍。1995年的成本高达1.5亿美元,只有国家级的大型科研项目才能负担。到2005年,成本降至150万美元,大型科研机构开始具备开展基因组研究的能力。到2020年,成本仅需300美元,使得个人基因组测序成为临床检测的可行选项。这一成本革命极大地推动了基因组学从基础研究向临床应用的转化,使精准医疗成为现实。
2. 已知人类与黑猩猩的基因组序列相似度为98.8%,人类基因组大小约为30亿碱基对。请计算人类和黑猩猩之间存在多少个碱基差异。结合进化理论,解释为什么这1.2%的差异能够导致两个物种如此显著的表型差异。
答案:
碱基差异数量:30亿 × 1.2% = 3600万个碱基差异
解释:尽管1.2%的序列差异看似很小,但3600万个碱基变异足以产生重大的生物学影响。这些差异主要体现在以下几个方面:
基因调控区域的变化可能比编码区变化产生更大的影响。调控区的小改变可能导致基因表达时间、位置和强度的显著变化,进而影响发育过程和器官形成。
关键发育基因的差异尤为重要。研究发现,FOXP2基因在人类大脑发育和语言能力形成中起关键作用,人类与黑猩猩的FOXP2基因仅有2个氨基酸的差异,但这足以导致语言能力的巨大差别。
染色体结构重排也是重要因素。人类2号染色体由两条祖先染色体融合形成,这种染色体层面的变化可能影响大量基因的表达和调控。
表观遗传修饰和非编码RNA的差异也可能产生重要影响,虽然DNA序列相似,但基因表达模式的差异造就了两个物种的独特性状。
3. 下表显示了某植物在干旱胁迫处理前后5个基因的表达量(FPKM值)。请识别哪些基因可能参与干旱响应,并说明判断依据。
答案:
干旱响应基因识别:
Gene A和Gene D可能是干旱诱导表达的基因(上调基因),表达量分别增加了4倍。这类基因通常编码抗逆相关蛋白,如脱水保护蛋白、渗透调节物质合成酶、抗氧化酶等。
Gene C可能是干旱抑制表达的基因(下调基因),表达量降至原来的25%。这类基因可能与正常生长发育相关,在胁迫条件下被抑制以节约能量用于抗逆反应。
Gene B和Gene E表达变化不明显(变化倍数接近1.0),可能是管家基因或与干旱响应无关的基因。
判断标准:在转录组差异表达分析中,通常认为表达变化倍数大于2倍或小于0.5倍(即上调2倍以上或下调50%以上)且统计学显著性检验P值小于0.05的基因为差异表达基因。本例中,Gene A、C、D符合变化倍数标准,很可能是干旱响应相关基因。
生物学意义:进一步研究这些基因的功能,可以揭示植物响应干旱胁迫的分子机制,为培育抗旱作物品种提供基因资源和理论基础。
4. 某研究团队希望研究肝脏再生过程中细胞类型的变化和相互作用。请设计一个单细胞测序实验方案,包括样本采集时间点、细胞分离方法、测序平台选择和关键分析步骤。
答案:
实验设计方案:
1. 样本采集时间点设计: 建立小鼠肝脏部分切除模型(70%肝切除术),在术后0小时(对照)、6小时、12小时、24小时、48小时、72小时和7天采集肝脏组织样本。这些时间点覆盖了肝再生的启动期、增殖期和恢复期,能够捕获再生过程中的关键细胞状态变化。
2. 细胞分离方法: 采用酶解法分离肝脏细胞。用胶原酶和DNA酶消化肝脏组织,获得单细胞悬液。通过低速离心分离肝细胞和非实质细胞。使用Percoll密度梯度离心进一步纯化细胞,去除死细胞和碎片。最后用荧光染料标记活细胞,通过流式细胞仪分选活细胞用于测序。
3. 测序平台选择: 推荐使用10x Genomics Chromium平台进行单细胞转录组测序。该平台通量高(每次可处理1万个细胞),操作相对简便,数据质量好。每个时间点准备3个生物学重复样本,每个样本捕获约5000个细胞,确保统计学的可靠性。
4. 关键数据分析步骤: (1)质量控制:过滤低质量细胞(基因数少于500或多于6000,线粒体基因比例大于10%) (2)数据整合:使用Seurat或Scanpy整合不同时间点的数据 (3)细胞聚类和注释:基于标记基因识别肝细胞、内皮细胞、Kupffer细胞、肝星状细胞等细胞类型 (4)轨迹分析:使用Monocle或Velocity分析细胞分化轨迹,重构肝再生的时间进程 (5)细胞通讯分析:使用CellChat或NicheNet推断不同细胞类型之间的信号通路相互作用 (6)差异表达分析:识别不同再生阶段特异性表达的基因和通路
预期结果:该实验将揭示肝脏再生过程中细胞类型的动态变化,识别促进肝再生的关键细胞亚群和信号分子,为肝脏疾病治疗提供新靶点。
5. 针对以下三个研究目标,请选择最合适的基因组学技术并说明理由:
(A)鉴定一种新发现的水稻品种中可能与高产性状相关的基因
(B)研究乳腺癌肿瘤组织中不同癌细胞亚群的基因表达差异
(C)分析人群中与2型糖尿病易感性相关的遗传变异
答案:
目标A:全基因组重测序 + 转录组测序(RNA-seq)
理由:对于鉴定水稻高产相关基因,首先需要进行全基因组重测序,通过与参考基因组比较,识别新品种中的单核苷酸多态性(SNP)、插入缺失(InDel)和结构变异。然后在不同生长发育阶段或不同组织中进行转录组测序,分析基因表达模式。将基因组变异信息与表达数据整合,结合高产表型的遗传连锁分析或全基因组关联分析(GWAS),可以定位候选基因。进一步通过功能验证(如基因敲除或过表达)确认基因功能。这种组合策略能够全面解析复杂性状的遗传基础。
目标B:单细胞RNA测序(scRNA-seq)
理由:研究肿瘤细胞异质性需要在单细胞水平分析基因表达,传统的bulk RNA-seq只能获得所有细胞的平均表达信息,无法区分不同细胞亚群。单细胞RNA测序能够解析肿瘤组织中每个细胞的转录组特征,识别具有不同增殖能力、侵袭能力或药物响应特性的癌细胞亚群。还可以同时分析肿瘤微环境中的免疫细胞、成纤维细胞等,揭示肿瘤细胞与微环境的相互作用。这对于理解肿瘤发生机制、预测治疗响应和开发精准治疗策略具有重要价值。
目标C:基因组广泛关联研究(GWAS)+ 全外显子组测序(WES)
理由:研究复杂疾病的遗传易感性需要在大规模人群中进行基因型与表型的关联分析。GWAS使用基因分型芯片检测数百万个常见遗传变异(SNP),通过比较病例组和对照组的等位基因频率,识别与糖尿病显著相关的遗传位点。GWAS适合发现常见变异(频率大于5%)的关联。对于罕见变异(频率小于1%),则需要进行全外显子组测序,重点分析蛋白质编码区的变异。中国科学家已经完成了数万例糖尿病患者的GWAS研究,识别了多个中国人群特异的易感位点,为疾病预测和个性化治疗提供了遗传学依据。