科技模块5-发展和重点研究方向
生物科技
基因库:
组成:基因库数据以及11种常见的模式生物:噬菌体、大肠杆菌、酿酒酵母、秀丽隐杆线虫、海胆、果蝇、斑马鱼、爪蟾、小鼠、拟南芥和水稻。占空间550m3空间.
城市生命(基因库利用)
像给人做体检一样,结合物联网和大数据,通过基因库数据分析,从基因流动角度多维监测城市整体健康程度和能量使用。同时这种基因检测还要对所有检测到的基因数据进行筛选,可以从中学习城市生态系统本身的稳态逻辑,向居民提供生存指导,让人知道怎样更健康地在城市生活。同时加强对城市环境承载力的研究与评价,划定禁止开发区域、限制开发区域等,科学规划。
下面是收集基因的基因检测方法及相关信息分析内容:
1、人全基因组重测序
基于全基因组重测序的人类遗传学和群体进化学的研究,能够快速筛选出基因组范围内的遗传变异,实现基因型多样性分析、遗传进化分析以及致病和易感性基因等的筛选。随着高通量测序技术的发展与普及,全基因组重测序已成为人类遗传学、转化医学和群体进化领域最为迅速而有效的方法之一,可更全面地挖掘基因序列差异和结构变异,包括单碱基突变、插入缺失变异、拷贝数变异和结构变异,在全基因组水平上扫描并检测与表型差异、疾病、进化等相关的突变位点。
(1)技术原理
全基因组重测序是对已知基因组序列的物种进行DNA测序,并在此基础上完成个体或群体分析。全基因组重测序通过序列比对,可以检测到大量变异信息,包括单核苷酸多态性(SNP)、插入缺失(InDel)、结构变异(SV)和拷贝数变异(CNV)等。基于检测到的变异能进一步研究动植物的物种特性、群体进化问题、定位目标性状基因位点。
(2)信息分析内容
2、全外显子测序
全外显子测序 (Whole-exome sequencing,WES)是应用频率最高基因组测序方法。外显子是人基因组的蛋白编码区域,利用序列捕获技术可以将其DNA捕获并且富集。虽然外显子区域不到全基因组的2%,但是却集中了大部分疾病的致病突变位点。相比全基因组测序,全外显子测序更加经济、高效。外显子组测序主要用于识别和研究与疾病、种群进化相关的编码区及UTR区域内的结构变异。结合大量的公共数据库提供的外显子数据,有利于更好地解释所得变异结构之间的关联和致病机理。
(1)测序原理:
首先,单链环状 DNA 分子通过滚环复制,线性扩增2-3个数量级,增强信号。所产生的扩增产物称为DNA纳米球(DNA nanoball, DNB),采用高密度DNA纳米芯片技术,将得到的DNBs加到芯片上的网状小孔内(固定在阵列化的硅芯片上)。通过联合探针锚定聚合技术(cPAS)和多重置换扩增的双末端测序法(MDA-PE)得到读长为100bp/150bp的双末端序列。
图4 DNA 纳米球示意图
MDA-PE的具体原理是:完成第一链(Forward Strand)测序后,在具备链置换功能的高保真聚合酶的作用下,合成第二链(Reverse Strand),并通过DNA分子锚,进行第二链的测序。MDA-PE法具有合成快、准确度高等优点。与其他二代测序技术相比较,DNB测序技术具有以下几个优势:
①DNB通过增加待测DNA的拷贝数而增强了信号强度,从而提高测序准确度。
②不同于PCR指数扩增,滚环扩增技术的扩增错误不会累积。
③DNB与芯片上的网状小孔大小相同,每个小孔只固定一个DNB,保证信号点之间不产生相互干扰。
④阵列化测序芯片和DNB测序技术的结合,使得成像系统像素和测序芯片的面积得到充分利用。
(2)信息分析内容
信息分析从测序的下机数据(raw data)开始,原始下机数据过滤掉接头、低质量碱基、未测出的碱基(以 N 表示)后比对到参考基因组上,进行SNP检测和InDel或者CNV分析,然后通过数据库注释,对变异检测的结果通过基于变异有害性、样本情况和基因功能表型三种分析策略,筛选出于疾病相关的有害性位点或基因。另外, 为了保证高质量的测序数据,在整个分析流程中设置了严格的数据质控体系(QC)。
图5 疾病信息分析内容
外显子测序主要适用于肿瘤易感性、致病机理、癌症异质性、转移和复发以及药物疗效研究。其中癌症异质性需要高深度测序,建议200X以上有效深度,FFPE样品建议200-300X对应的数据量,需要尽量全面、准确地检测肿瘤组织发生的所有突变信息,所以测序深度需要尽可能高,以检测低丰度突变位点。ctDNA建议500X及以上有效测序深度,用于检测Somatic 突变以及频率来判断ctDNA的存在和水平,从而反应肿瘤负荷等信息。
图6 肿瘤信息分析内容
3、单细胞测序
(1)技术原理
细胞测序可以从DNA、RNA、表观水平检测单个细胞的遗传和变异信息,让我们更清晰的了解细胞与细胞间的差异,以及细胞间遗传表达信息的异质性,可以重新定义细胞类型,发现罕见稀有细胞亚型,让我们能够深入到细胞层面进行深层次的信息挖掘,让生物整体系统研究更加清晰化。目前可以实现从流式细胞分选到单细胞分选,以及遗传信息测序及分析,涵盖单管单细胞研究到高通量单细胞多层次研究。
基于10X Genomics平台的高通量单细胞RNA-Seq技术是利用液滴法的原理,使用GemCode技术,通过控制微流体的进入,将带有barcode、UMI(Unique Molecular Index,分子标签)、引物及酶的凝胶珠(Gel Beads)与单细胞混合,从而实现大规模的单细胞分离,以及单细胞文库构建的技术。
图1 10X Genomics技术原理示意图
10X Genomics平台的液滴封装大约有50%的捕获效率,可在6分钟内完成。分离完成后会形成一个GEM(Gel in Emulsion)的液滴结构,在这个液滴结构内,包含了一个凝胶珠,一套反应需要的试剂以及目标细胞,通过一套75万个barcode序列系统地对每个液滴进行唯一标记,随后上机测序,再利用信息分析的方法进行barcode序列的拆分,可实现一次100-10000个细胞的分离和文库构建。
(2)信息分析内容
1.测序结果统计;2.比对结果统计;3.定量分析;4. 质控(细胞周期因素去除,双胞去除等);5. 细胞聚类分析;6. 样本间差异基因鉴定;7. 细胞类别鉴定;8. 差异表达基因GO功能分析;9. 差异表达基因Pathway功能分析;10. 差异表达基因TF编码能力预测;11.差异表达基因蛋白互作分析;12.基因相关性网络分析;13.Reactome富集;14.RNA速率;15.细胞通讯iTALK;16.细胞通讯cellphoneDB;17.细胞轨迹分析;18.GSEA 富集(选做,需2个样本以上);19.GSVA 富集;20.CNV分析(选做,肿瘤样本-需2个样本以上)
4、免疫组库测序
(1)技术原理
T/B细胞是适应性免疫系统的两大细胞群,细胞表面受体TCR/BCR存在一块区域叫互补决定区(ComplementaryDetermining Region, CDR),包含CDR1、CDR2、CDR3,其中CDR3最高变,在抗原识别中起关键作用。免疫组库测序是通过多重PCR和高通量测序技术,分析编码CDR3区的DNA/RNA序列,获得机体的免疫特征,全面评估免疫系统的多样性,深入挖掘免疫组库与疾病的关系。
(2)信息分析内容
①基本数据统计 :数据过滤,对原始数据进行去除接头污染及低质量reads的处理、数据搭建,数据拼接,消除测序背景及有效数据构建、数据统计,数据产出统计及测序数据的成分和质量评估
②数据比对分析:比对分析,与数据库V/D/J基因片段比对、比对结果统计
③克隆序列特征注释:CDR3区核酸序列和氨基酸序列、鉴定无效序列(包含终止密码子,超出结构范围)、鉴定单碱基突变(替换、删除、插入)(for BCR)
④单样品克隆群体特征分析:CDR3序列长度分布、 V/J基因频率分布、 V-J基因组合频率分布(3D, Circos)、克隆群体结构分析(频率分布,D50曲线,甜甜圈图)
⑤样品间比较分析 :测序饱和度分析、克隆多样性分析(辛普森系数、香农威纳系数等)、样品间共有克隆分析、聚类分析(层次聚类,MDS聚类)、组间差异分析
5、蛋白质组学
蛋白质组学(Proteomics)是后基因组时代的一门重要学科,其研究对象为生物体内所有翻译表达并执行生命功能的蛋白质,蛋白质之间的相互关系,以及蛋白质与DNA、RNA和代谢产物之间的关联关系。基于液相色谱和串联质谱联用(LC-MS/MS)的高通量高深度蛋白质组学研究可以获得蛋白质表达谱、蛋白质翻译后修饰、定量差异蛋白表达谱及蛋白质相互作用信息,可应用于基因表达研究、辅助基因注释和修正、蛋白标志物发现、功能蛋白和多肽的挖掘、信号通路和分子机理机制研究等。
(1)技术原理
蛋白鉴定分析,利用质谱技术对细胞、组织、体液或经过分离、纯化、富集后的蛋白胶/液等类型样本中全部或特定的蛋白进行种类鉴定,充分了解特定环境下蛋白质种类情况是进行蛋白质组学研究的基础,为研究疾病发生发展过程以及动植物生长发育状态提供直观的蛋白质种类鉴定结果。蛋白质鉴定分析类产品按研究对象和内容的不同,可分为以下两个产品:蛋白全谱分析和胶点/胶条鉴定。
①蛋白全谱分析
蛋白全谱分析是对蛋白质组的整体分析方法,通过质谱手段能得到尽可能多的蛋白质信息。主要用于对未知样品中含有的蛋白质种类进行全面的分析。基于质谱技术的蛋白全谱分析,可以为蛋白质高通量的定量和修饰分析提供参考信息。此外,结合全谱分析数据和转录组数据,可以相互补充并共同验证基因注释及功能信息。
②胶点分析
双向电泳得到蛋白质图谱,用相关软件分析得到差异或感兴趣的蛋白质点,使用质谱技术对其进行鉴定,得到蛋白质的详细信息。
③胶条/蛋白液分析
SDS-PAGE胶中分离出的指定条带或较少组分(一百以内)蛋白液进行质谱鉴定。
图1 胶点(左)胶条(右)图
(2)信息分析内容:
①标准信息分析:1.1 数据产出统计1.2 蛋白质鉴定结果1.3 蛋白质GO分析(仅适用于全谱分析和胶条鉴定)1.4 蛋白质CCOG/KOG分析(仅适用于全谱分析和胶条鉴定)1.5 蛋白质Pathway代谢通路分析(仅适用于全谱分析和胶条鉴定)
②个性化信息分析2.1 单个样本蛋白质相对丰度定量(iBAQ)(仅适用于全谱分析和胶条鉴定)
6、代谢组学
代谢组学(Metabolomics)采用LC-MS、GC-MS、NMR技术进行检测,获得代谢物的定性定量信息。通过比较不同组别样品中代谢物的含量变化,寻找差异代谢物,并探索差异代谢物相关的代谢通路,广泛应用于生物标志物的发现、临床诊断、疾病分型、病理生理机制、药效与药毒性评估、个性化治疗、环境暴露等研究。
- 技术原理
基于液质联用技术(LC-MS),无偏向性、尽可能多地检测细胞、组织、器官或体液等生物样本内所有的小分子代谢物,对实验组和对照组进行对比分析,通过统计分析筛选差异代谢物,对差异代谢物进行代谢通路分析,进而寻找代谢物与生理病理变化的相对关系。