英文名:DNA-Binding Specificities of Human Transcription Factors
中文名:人类转录因子的DNA结合特异性
作者:Arttu Jolma, Jian Yan, Thomas Whitington, Jarkko Toivonen, et al. Jussi Taipale
第一单位:Genome-Scale Biology Program, Department of Computer Science, University of Helsinki, Finland
发表杂志:Cell(2013)
解读人:王玉锋博士
摘要
虽然我们获得了大量的转录因子(TFs)基因序列,但对于它们所识别的核酸序列和调控的蛋白,我们知之甚少。本文通过高通量SELEX技术和ChIP-sequencing,分析了人类转录因子的特异性结合序列。共获得830个结合图谱,详细描述了239个明显不同的结合特异性。这些模型代表了大多数人类转录因子,比现有的系统性研究人类转录因子的数目增加了近一倍。我们的研究结果在全局层面揭示了大量转录因子特异性结合的决定因素,当然也包含了已知的转录因子的特性,如在核心序列侧翼常见的A-或T-的延伸。组学层面的数据分析显示,TF同源二聚体的空间结构和方向性,DNA序列中碱基堆积空间相互作用,也会影响TF-DNA特异性的结合,这是新的发现。我们结合这些影响DNA与TF结合的多种因素,构建了一个新的TF-DNA结合的系统生物学模型。
正文
了解控制动物发育以及生理和病理过程的转录调控网络,需要在所有可能的发育和环境条件下对每个TF的靶基因进行解析。经典遗传学、染色质免疫沉淀测序(ChIP-seq)和RNAi等方法已用于确定核心转录因子在环境条件稳定时的靶基因和简单的模型,如早期胚胎发育的线虫和海胆。然而,由于人类含有大量TFs,且人类的细胞类型和环境状态的多样化,使用这些方法来解析人类所有转录调控的网络是有很大困难的。在这项工作中,我们使用高通量技术(HT-HELEX),系统地分析了大部分人类转录因子特异性。
实验材料
转录因子的融合蛋白。在哺乳动物细胞中表达891个人类和444个小鼠的DNA-Binding Domains(DBDs)和984个人的全长转录因子,这些蛋白的C-端有tag标记。
实验方法
1. 指数富集的配基系统进化技术(systematic evolution of ligands by exponential enrichment, SELEX) :从随机单链核酸序列库中筛选出特异性与靶物质高度亲和的核酸适体(Aptamer)的方法。
2. ChIP-seq.
图1. 实验流程
A. 融合蛋白的表达:目的蛋白与链霉亲和素标签SBP和Gaussia luciferase的融合蛋白
B. 配体设计时引入条形码Barcode来对应样品
C. 高通量SELEX的流程
数据处理
大规模平行单分子测序技术。
然后对测序的数据依次进行各种质量控制:
(A)Hamming distance plot,各轮SELEX产物序列多样性的相关性;
(B)Position plot,排除周围的恒定序列干扰;
(C)Enrichment plot,序列各轮间专一性序列成指数及增长,排除可检测的污染序列;
(D)构建PMW Model(position weight matrix),采用multinomial model和优化的算法,计算出转录因子结合的保守DNA序列motif及各位点的频率;
(F)TF-DNA模型的修正与优化。
图2 (B)通过multinomial algorithm产生位置权重矩阵PWM,(D)全长TF 和DBD结合相似的分析。
其中橙色点为DBD 的PWM models,蓝色为全长TF的PWM models。
结果
1.基因组范围的TF-DNA结合特异性分析
获得了303 human DNA binding domain(DBDs), 84 mouse DBDs, 和151 human full-length TFs的特异性序列的可靠富集, 代表了411 种不同的TFs。
2.全长TF和DBD结合相似的序列
对79个既有全长又有DBD的TF,利用获得的PWM models 进行相似性分析,全长TF可以和其对应的DBD很好的聚在一起。故DBD可以很好的代表全长TF的结合特异性(图2B)。
3.PWM与已有文献数据库(JASPAR)和其它高通量方法(Protein Binding Microarrays, PBM)获得的 TF结合序列的比较
作者获得的PWM模型平均宽度13bp,高于以往数据。作者获得的高度可信的转录因子数目,比现有的系统性研究的人类TF数目增加了近一倍。覆盖了超过50%的高度可信的TF,不同结构的转录因子以单体形式或形成多聚体后结合的专一性序列也明显高于已有数据(以CHIP-Seq获得的TF结合序列为阳性参照)。
4.不同结构的TF有显著不同的序列专一性
TF根据自身结构特性分为十几类,每类中,按照每个成员结合序列的特异性(PMW)进行TF成员的网络分布分析(图3)。发现有些家族如P53,具有明显一致的PMW,而有些家族(如zinc finger protein)中,成员识别序列的PMW非常广泛,保守性很弱。同时发现,老鼠和人类中的同源TF结合的序列是相似的,结合基序的特异性也是保守的。
图3. 根据PWMs的相似性进行TF内成员的网络分布分析
5.基于DNA结合的序列特性进行TF的分类
对于ETS家族,按照基于DNA结合的序列特性进行TF的分类,不仅能精确确定已分成4类的亚家族,还发现了各类中存在的新的结合位点和dimer情况(图4)。
图4. 基于结合序列进行TF的分类
6.基于dimer空间结构和方向性的TF分类
有些转录因子单体时识别的特异性序列一致,二聚体或多聚体时会识别不同的序列。有些转录因子(T BOX 因子 和 forkhead 蛋白)形成多聚体时,会有空间和方向性的偏好性,会结合不同的序列。故可以根据单体专一性和转录因子聚合后的空间和方向的偏好性进行分类(图4 B)。
7.TF特异性结合的碱基序列中碱基位置的独立性
TF特异性结合的碱基序列中,大多数中碱基的位置不受周围碱基影响,是独立的。也有少部分会依赖周围的碱基。比如常见的二核苷酸对,SOX蛋白识别的序列中有些核苷酸会依赖相邻的一个核苷酸,这可能与单链DNA形成颈环结构相关;有些碱基位置的不独立性与TF二聚体的结合或多个转录因子均结合部分序列相关,即空间结构决定,非序列特异性。有些转录因子识别DNA序列时是依赖DNA构象结构的,它们不形成氢键,这种类型的识别中核心序列的侧翼常有3-5个A-或 T-。
8.基于PMW model数学模型的优化
有些转录因子有相邻核苷酸依赖的偏好性,我们基于PMW model,并考虑二核苷酸相邻的偏好性,修正出ADM模型,利用E2F3转录因子家族做测验,发现ADM模型能更准确地富集出10 bp的结合序列。同样,我们利用有些TF有二聚体空间和方向的偏好性,收集其特异性结合序列并分析规律,优化了和重建了TF-DNA结合的系统生物学模型,并通过验证,证明了该模型的有效性。
提示和启发
1.转录因子分为多个家族,不管是普遍转录因子还是组织细胞特异性转录因子,它们都是科研领域的热点之一。该文章只在体外进行了387个DBD和151个全才TF与核酸的特异性结合分析,辅以几个关键蛋白的CHIP-Seq验证,发现了一些规律,并修正了TF-DNA结合的系统生物学模型,就发表在了2013年的Cell上。同年,该课题组利用高通量ChIP-seq,对111个转录因子进行了系统性分析,发现癌细胞中转录因子高度聚集,集群簇富含几个主要TF类的结合基序。大部分集群通过围绕cohesin形成黏合,也发在了Cell上。
2.TF直接参与生长发育或环境变化导致的基因表达调控,通过对其功能的深入分析可以构建精细的基因调控网络。对转录因子研究的方法有酵母单杂,EMSA, DNaseI footprinting,大规模研究的方法有今天提到的SELEX技术,之前的PBM技术(Protein Binding Microarray),这些方法多是在体外环境中检测蛋白与核酸的结合特性,高水平的杂志或机理性文章都需要体内实验的验证。这需要用到 CHIP-Seq,用到高质量的特异性抗体。
3.利用特异性抗体通过CHIP-Seq拿到特异性结合序列,利用抗体研究转录因子的定位、定量和互作蛋白情况,是研究其功能一步到位的做法,省时省力。对于单一转录因子的研究,利用定制抗体可以实现。对于大通量研究转录因子(研究某一类TF或某物种全部转录因子),公司的抗体组技术可以实现大规模的单抗制备,抗体组芯片技术可以实现大规模的特异性单抗的筛选,对于组学层面转录因子的研究,尤其是体内水平的作用情况,都是强有力的技术支持。
艾比玛特医药科技(上海)有限公司
上海市徐汇区桂平路333号聚科生物园区1号楼1-3层
邮箱:market@ab-mart.com
应聘职位:hr@ab-mart.com
订购专线:4006-123-828
销售电话:13162017139(微信同号)
技术支持:15618194176(微信同号)
南方经销商负责:手机13122837132(微信同号)
北方及西南经销商负责:手机13122150513(微信同号)
微信客服
邮箱:market@ab-mart.com
应聘职位:hr@ab-mart.com
订购专线:4006-123-828
销售电话:13162017139(微信同号)
技术支持:15618194176(微信同号)
总机:021-34695901
南方经销商负责:手机13122837132(微信同号)
北方及西南经销商负责:手机13122150513(微信同号)
微信客服
沪ICP备17056956号-2 艾比玛特医药科技(上海)有限公司