北医三院黄牛挂号预约电话,方式+流程+预约入口
- 北医三院
- 2024-01-13 12:04:30
联系人:医院挂号黄牛 | 微信:15011205632(挂号加微信)| 手机号:15011205632
「北医三院跑腿代办挂号票价格」-「北医三院跑腿代办挂号能用吗」-「北医三院跑腿代办挂号流程」-「北医三院跑腿代办挂号」-「北医三院黄牛跑腿服务」-「北医三院跑腿代办挂号电话号码」-「北医三院挂号黄牛电话」-「北医三院号贩子代办挂号」-「北医三院黄牛党挂号怎么找」-「北医三院跑腿代办挂号价格」
我们提供更优质的陪诊服务:
全国代挂号网实力可靠;专业陪诊、跑腿、代挂十多年的丰富经验,为广大患者解决省市级三甲大医院等名医挂号,便民挂号导师;帮预约,帮排队,帮挂号业务及药代购代送等,一切你不方便办的事,让本司通通帮你完成。
全国代挂号网:想患者所想,急患者所急,满足大家需求。
广东发布《岭南膳食模式》
日前,广东省营养学会发布《岭南膳食模式》,涵盖8条特征:食材广博、搭配合理;蔬菜足量,水果丰富;水产充足,肉禽蛋奶适量;杂豆常有,全谷坚果不缺;饮食清鲜,少盐少油;喝茶多,饮酒少;多蒸煮快炒,少煎炸腌制;叹早茶、常煲汤,重食养。据介绍,该膳食模式有利于降低心血管疾病、高血压等多种慢性病的发病风险,对居民日常饮食具有健康指导作用。(广西卫生健康委员会)
北医三院就医指南
2月见右侧联系栏东院门诊
自2月10日(星期一)起,我院门诊特做进一步调整。
一、所有科室的专家门诊、专病门诊、联合门诊、总院教授团队工作室门诊均停诊。恢复时间视疫情情况另行通知。
二、普通门诊以解决慢性病患者配药需求为主,开诊科室调整如下
(一)普通门诊开诊科室
骨科、普外科、妇产科、儿科、内分泌代谢科、心血管内科、消化内科、神经内科、呼吸内科、肾脏风湿科、肿瘤内科、血液内科
(二)普通门诊停诊科室
泌尿外科、运动医学科、关节外科、神经外科、心胸外科、耳鼻咽喉头颈外科、眼科、口腔科、皮肤科、中医科、针推伤科、介入放射科、核医学科、康复医学科、肝炎门诊、肠道门诊、麻醉疼痛科、老年病科、临床营养科、高压氧治疗科
三、急诊工作
急诊、发热门诊24小时开放
四、门诊全预约制
自2月10日起,我院门诊实行全预约制,不接受临时现场挂号;请患者务必预约就诊,按照预约时间段提前30分钟-45分钟到院即可;未预约的患者请不要来院排队挂号;已预约挂号且选择暂时不到医院就诊的患者,可通过原途径取消预约。
见右侧联系栏东院门诊预约方法
一、预约方法
1、电话预约:预约中心电话:021-见右侧联系栏
2、现场预约:地点在门诊大厅预约中心
3、诊间预约:您可在就诊结束时请医生直接帮您预约
4、住院预约:出院时由病房预约
二、预约时间
周一至周六(8:00-16:00)(请提前3-7个工作日预约)
三、预约内容
专家门诊、专病门诊、联合门诊、普通门诊
见右侧联系栏东院医院基本信息
地址:浦东新区南汇新城环湖西三路222号(近古棕路)
邮编:201306
电话:见右侧联系栏
交通:地铁16号线(滴水湖站)、申港1路、申港3路、1043路直达
医生问诊
病情描述:
产生幻觉,盗汗,不由自主
提示:线上咨询不能代替面诊,医生建议仅供参考!
答咨询实录
谢军主治医师
淄博市第五人民医院精神心理科
本人近年来每月发生数次幻觉,好像以前或者即将发生的事,心里极其不舒服,由不由自主的,出身汗又清醒了,持续时间几十秒
多久了,就诊过么
什么幻觉?
有时家里好好的,好像听见或看见恐怖的声音
自己心里清楚,但感觉已发生数次,全身出汗无力
有时和他人说话交流时突然想到或出现其他画面,无法与人交流,全身出汗,马上清醒了
心里极其不舒服
没有就诊,不知查什么,想查的时候好好的
幻觉的话,还是应该就医的
当地精神卫生中心就诊看一看
大夫初分析我怎么了
不好说,需要首先做个脑部ct排除一下
脑ct体检正常
第四第五脑间隔腔形成
这个年龄突然出现的。一般不先考虑精神性,要考虑器质性。
以前三十几岁出现过一次,近几年多发一个月好多次
我应该怎么做
当地精神卫生中心就诊做精神检查看一看
以前查过一次,正常时期都好的
但是人正常状态下,一般不会出现这种情况。
好的,谢谢
Ok
常见疾病:
喘息样支气管炎
喘息样支气管炎(asthmatoidbronchitis)是一临床综合症,泛指一组有喘息表现的婴幼儿急性支气管感染。肺实质很少受累。其中部分病儿可发展为支气管哮喘。
发病部位在哪里?肺及肺系
应该挂什么科?呼吸内科、小儿呼吸科
有什么典型症状?咳嗽伴哮鸣音、哮鸣音、咳痰、咳嗽、喘息
应该做哪些检查项目呢?血常规、X线平片
这样的病症传染吗?该病不具有传染性
高发人群?1至3岁小儿
--------------
肠息肉
息肉是指一类从黏膜表面突出的异常生长的组织,在没有确定病理性质前通称为息肉,一般来说,息肉是由于起源于黏膜的细胞生长聚集形成的。肠息肉是临床常见疾病,其发生率随年龄增加而上升,男性较女性多见。
发病部位在哪里?全腹
应该挂什么科?消化内科、普通外科、肛肠科
有什么典型症状?肠狭窄、直肠息肉、结肠息肉、横结肠息肉、肠蠕动减慢、腹痛、腹泻、便血
应该做哪些检查项目呢?肠道造影、肠镜
这样的病症传染吗?该病不具有传染性
高发人群?无人群限制
--------------
肠系膜上动脉压迫综合症
肠系膜上动脉压迫综合症是指十二指肠水平部受肠系膜上动脉压迫所致的急、慢性肠梗阻,亦称肠系膜上动脉综合症、十二指肠血管压迫综合症、良性十二指肠淤滞症或Wilkie综合症。在骨科,应用石膏床及髋穗形石膏固定后,患者因过伸姿势常会发生急性肠系膜上动脉压迫综合症,故又称为石膏综合症(Cast综合征)。本病可发生于任何年龄,。
发病部位在哪里?全腹
应该挂什么科?消化内科
有什么典型症状?恶心、呕吐、腹痛
应该做哪些检查项目呢?胃肠道B超
这样的病症传染吗?该病不具有传染性
高发人群?中青年女性多见
北医三院患者评价:
∎1
在博爱堂挂了唐武军主任的号,看的挺好的,让我感觉很贴切,开了一周的药,还能走医保,谢谢唐老师。
∎2
慕名来找马医生,凌晨就去排队了,本来马医生应该是专家门诊,结果好不容易到我挂号的时候,说医生今天出特需门诊,挂号费瞬间就涨了许多,这让我们大吃一惊,百感交集,一切发生的太突然的,希望医生按照出诊表出诊,不然对外地的病人来说,会增加一些麻烦。
∎4
李主任和蔼可亲,看病很认真、细心、负责任。对待患者像朋友一样,而且考虑周到,每一个细节都为我们患者想到。为患者着想,待人诚恳热心,并且非常有耐心,值得信赖。一切都从患者出发,是我心目中真正的好医生,医术精湛,同时医德高尚,值得尊敬。给李主任大大的赞,祝李主任好人一生平安。
∎5
谭慧琼医生是我见过最差劲的医生,服务太度极差,什么都不说就开一大堆检查单子,不懂的问了也不告诉你,让自已去外面咨询台询问,一点都不和善,大老远跑到看病就听她挨次了,侯诊时间也就只有五分钟,差评!差评!
∎6
一路走来,袁亦铭主任都是非常好的态度,对待我的情况也十分上心。现在已经恢复生育能力了,谢谢您。
∎7
康医生特别好,很有耐心听我们讲,检查结果出来一切正常,心情大好啊哈哈,这个网站太好用了哈哈~
∎9
在手术之前,我非常紧张,因为担心会出意外,但王医生的医术和医德都使我特别满意,手术 很成功,谢谢王主任,希望您多保重床
∎10
由于最近2021年是新冠肺炎疫情时期,加上春节吃的不注意!引起了通风疾病!加上前几年体检报告都显示我的尿酸高,这次出现症状,不敢上医院,在网上查询后咨询了李医生,进过专业和细心的讲解,并给予治疗方案,得到及时的治疗!真诚感谢李医生!!!谢谢!
∎11
对待病人态度和蔼可亲。感谢美尔目周丹医生
最后为大家推荐一款哪些可以网上挂号的APP,祝各位早日拿到号看好病!
好大夫在线
好大夫在线咨询:医疗健康必备!联系专家本人唯一通道
特色功能
【帮您找到好评医生、医院】 - 汇集110万篇真实患者对医生的点评(来自好大夫网站5年积累),您可以随时查询医生过去5年内的患者口碑,用其他患者的经验帮自己挑选好大夫。 - 范围覆盖全国31个省市的3200家大医院、29万名医生。 【免费咨询45321位正规医院专家本人】 - 随时随地、免费向正规大医院的专家提问,询问专家建议、预计花费、诊疗方法、甚至联系住院床位,均由专家本人回复。 - 好大夫在线是唯一能够联系到专家本人的平台,目前可以联系45321位医生本人。和自己的主治医生保持联系吧,他是最了解疾病真相的人。 【随时查看专家本人的回复】 - 专家回复后,您将立即收到回复信息,确保第一时间看到专家的指导,关键信息不容错过!(专家本人工作繁忙,一般都有自己的固定上线频率,请耐心等待) 【免费预约6987名专家的门诊】 - 此功能在手机端即将开放,敬请期待。 - 目前的使用方法:先通过好大夫在线(www.haodf.com)提交预约申请,然后通过Android版随时查看订单的审核状态,及时领取预约凭证,避免订单作废。 【最新出诊时间、停诊预报】 - 每月更新大夫详细出诊、停诊时间,去医院就诊前必查! - 每晚19:00前发布全国64家热点医院准确的次日停诊预报。 【杜绝骗子医院】 - 好大夫在线的专业严格审核体系,完全杜绝骗子医院和江湖医生,保障患者不落入医托儿的陷阱。
本研究介绍了iDNA-ABF,这是一种仅通过基于基因组序列的生物语言学习来识别DNA甲基化的新方法。
导语
在本项研究中,作者提出了iDNA-ABF,一种多尺度的深度生物语言学习模型,能够仅基于基因组序列对DNA甲基化进行可解释的预测。基准比较表明,研究提出的iDNA-ABF在不同甲基化预测方面优于最先进的方法。而且展示了深度语言学习在从背景基因组中捕获顺序和功能语义信息方面的力量。此外,通过整合可解释的分析机制,我们很好地解释了模型所学到的内容,帮助我们构建从发现重要的顺序决定因素到深入分析其生物学功能的映射。
背景介绍
今天小编为大家带来一篇预测甲基化的深度学习算法发表在10分+GenomeBiology的思路。题目为iDNA-ABF:multi-scaledeepbiologicallanguagelearningmodelfortheinterpretablepredictionofDNAmethylations。
数据介绍
本研究使用了17个物种的甲基化数据集作为训练和验证数据集,其中从ENCODE门户(ENCSR765JPC,ENCSR890UQO和ENCSR786DCL)收集了三种人类细胞系(K562,GM12878,hepG2)的5mC甲基化数据。
研究设计
iDNA-ABF概述。如图A显示了DNA甲基化数据集集合,其中属于三种主要DNA甲基化类型的不同数据集被重组为其训练数据集和独立数据集。我们的iDNA-ABF的整体架构在B-E.B多尺度信息处理模块中呈现,分别利用两个尺度(3-mer和6-mer)的分词器来处理输入序列并自适应地获得相应的嵌入。CBERT编码模块,使用BERT编码器提取高潜在特征表示。D多尺度提取模块,基于多尺度嵌入生成最终输出特征表示。E分类模块,整合二元分类概率值进行预测。F可解释分析的工作流程。简而言之,研究的模型使用注意力机制从查询序列中提取和学习顺序主题。
在研究的模型中,我们用k-mer表示标记DNA序列。通过这种方式,每个标记都由k个碱基表示,从而为每个核苷酸集成了更丰富的上下文信息。例如,给定的DNA序列“ATGGCTG”可以标记为两个6-mers的序列:ATGGCT和TGGCTG。不同的k导致不同的标记表示。在我们的工作中,我们将k设置为3或6,从而获得两个尺度的令牌表示。整个令牌表有4k+5个令牌,由k-mer的所有排列以及5个特殊标记组成:[CLS]、[PAD]、[UNK]、[SEP]和[MASK],分别代表分类令牌、填充令牌、未知令牌、分离令牌和屏蔽令牌。
结果解析
01所提出的iDNA-ABF优于最先进的方法
为了评估我们提出的iDNA-ABF的性能,我们将其与四种最先进的预测因子进行了比较,包括iDNA-ABT,iDNA-MS,BERT6mA和Deep6mA。在四种预测因子中,前两种(iDNA-ABT和iDNA-MS)是不同甲基化预测的通用预测因子,而另外两种(BERT6mA和Deep6mA)最初设计用于6mA位点预测。包括两个6mA预测因子进行性能比较的原因是,它们是基于深度学习的最先进的预测因子。此外,他们的模型非常灵活,可以很好地扩展到其他甲基化预测,如5hmC和4mC,而不仅仅是6mA。所有比较的预测因子分别在不同物种和不同甲基化类型的17个训练数据集上进行训练,并在相应的独立测试数据集上进行评估(有关详细信息,请参阅“数据集”部分)。ACC和MCC的评估结果如图所示。分别为1A和B。其他指标(如SN和SP)的详细结果显示在附加文件中。如图所示。1A和B,我们的模型在17个数据集中的15个上优于现有的四个预测因子,只有两个例外-5hmC_M.musculus和6mA_A.thaliana,其中我们的模型实际上也与最佳预测因子相当。具体来说,我们模型在所有数据集上的平均ACC分别比两个亚军预测因子iDNA-ABT高1.34%和BERT6mA高3.73%。特别是在三个数据集(4mC_C.equisetifolia,4mC_S.cerevisiae和6mA_S.cerevisiae)上,我们的iDNA-ABF表现优于具有相对较大边际的现有预测因子,领先3.28-14.75%,1.88-3.59%和1.48-4。ACC分别为23%。在MCC方面也观察到了类似的结果。为此,结果表明,我们的iDNA-ABF优于最先进的DNA甲基化通用预测方法。更重要的是,它在三种甲基化类型下显示出跨物种的稳健性能。为了验证我们模型的稳健性,我们进一步说明了四个数据集(4mC_C.equisetifolia,5hmC_M.musculus,6mA_C.equisetifolia和6mA_F.vesca)上预测因子的ROC和PR曲线,如图所示。分别为1C–F。我们可以看到,我们的iDNA-ABF在所有四个数据集中具有最高的AUC和AP。具体而言,与其他预测因子相比,我们模型在四个数据集上的平均AUC和AP值分别增加了约1.39-2.81%和0.1-13.8%。结果进一步证明了我们的模型在DNA甲基化预测任务中的稳健性能。其他数据集上的ROC和PR曲线可以在附加文件。为了直观地讨论为什么我们的iDNA-ABF比其他方法表现更好,我们进一步可视化了iDNA-ABF的特征表示空间和第二好的预测因子iDNA-ABT在上述四个数据集(4mC_C.equisetifolia,5hmC_M.musculus,6mA_C.equisetifolia和6mA_F.vesca)上使用均匀流形近似和投影(UMAP)的特征表示空间分布,这是一种广泛使用的可视化工具,通过降维揭示基本数据特征。请注意,其他数据集上的UMAP可视化结果可以在附加文件中找到。图1G和H分别说明了我们的iDNA-ABF和iDNA-ABT的特征空间分布,其中每个点代表每个样品;甲基化位点(阳性样品)用红色注释,而非甲基化位点(阴性样品)用蓝色注释。从图中可以看出。1G,我们的模型清楚地分离了正负样本,每个类聚类在一起而不是分散,而在图中。1H,iDNA-ABT特征空间中的正负样本分布得几乎相连,不容易圈出每一类的边界。通过比较图。1G和H,我们发现与最先进的iDNA-ABT相比,这两类在我们的iDNA-ABF的特征空间中分布得更清晰。这表明我们的模型从不同的类样本中学习了更好的特征表示,这可能是由于我们的模型构建中预训练良好的模型,帮助我们从数百万个背景基因组序列中捕获更多高潜在上下文语义信息。
图1
对抗训练是我们iDNA-ABF的重要组成部分。为了研究对抗训练的有效性,我们将原始的iDNA-ABF与不使用对抗训练的模型进行了比较。17个独立数据集的结果如图所示。1I,其中每个点代表每个数据集。可以看出,我们最初的iDNA-ABF(带有对抗训练)通常比没有对抗训练的性能更好。具体来说,通过引入对抗训练,ACC和MCC的性能改进分别可以在17个数据集中的14个数据集和17个数据集中的15个上观察到。这表明对抗训练可以提高预测性能。其他指标(SN、SP和AUC)的结果可以在附加文件。更重要的是,为了直观地展示对抗训练在模型优化中的重要性,我们进一步分析了训练过程中的学习曲线。图1J显示了从数据集中随机选择的两个数据集(5hmC_M.musculus和6mA_F.vesca)上进行和不进行对抗训练的模型曲线。从图1J,我们可以看到,具有对抗训练的模型实现的测试损失低于没有对抗训练的模型,尽管损失减少率比没有对抗训练的模型下降得更慢。此外,使用对抗训练,模型在训练过程的后期保持较低的测试损失,而没有对抗训练的模型逐渐开始过度拟合,这表明对抗训练增强了我们的模型在DNA甲基化预测中的鲁棒性。
02iDNA-ABF揭示了跨物种的甲基化保守性
为了研究不同物种的甲基化序列模式是否保守,我们首先使用Lifemap构建了相同甲基化类型中不同物种的进化树。至于4mC甲基化,图2A说明了四个物种的进化关系。可以清楚地看到,木麻黄和木麻黄是进化分类法,属于常见的Fabids,而另外两个物种属于酵母菌。一个有趣的观察结果是,我们的模型在具有进化分类法的物种中表现出类似的表现。在F.vesca和C.equisetifolia中,我们模型的ACC分别为0.852和0.858;而在另一个中,它们的ACC分别为0.743和0.723。接下来,我们使用基于概率的基序可视化工具kpLogo进一步分析了四个物种的甲基化顺序模式。图2B显示了两个进化上接近的物种(F.vesca和C.equisetifolia)的顺序模式,而图2C表明,在另外两个物种中。从图。如图2B所示,我们可以看到该物种中的甲基化序列区域非常相似,特别是富含CG含量。从图。如图2C所示,其他两个物种的结果相似。至于6mA甲基化,我们也发现了与4mC甲基化类似的结论。总体而言,结果表明,具有进化分类法的物种中的甲基化序列模式可能是保守的,从而有助于类似的预测性能;另一方面,具有远进化关系的物种的甲基化模式将大不相同。
图2
03多尺度顺序设计选择更适合阐明甲基化机制
在我们的模型中,我们提出了一种多尺度信息处理策略,通过使用不同的k-mers来表示不同的“生物学词”进行特征表示学习。因此,我们首先验证了单尺度k-mers如何影响模型的预测性能。我们比较了不同的k-mer,范围从3-mer到6-mer。比较结果如图所示。3A,我们可以看到不同的k-mers确实分别在不同的数据集上具有优势。没有观察到一致的结果。可能是甲基化的连续区域因物种和甲基化类型的长度而异。因此,使用单尺度序列模式进行特征表示不能自适应且充分地捕获甲基化的固有特征。为了解决这个问题,我们整合了不同尺度的k-mers作为我们的模型输入,例如3-mer+6-mer,4-mer+6-mer和5-mer+6-mer,并比较了它们的性能,如图所示3B可以观察到,与单尺度k-mer(即3-mer和6-mer)相比,多尺度k-mer积分(即3-mer+6-mer)提高了模型性能。具体而言,使用3-mer和6-mer集成的模型实现了最高的性能,所有数据集的平均ACC为85.95%,分别比使用3-mer和6-mer的模型高2.53%和1.01%。这表明来自不同尺度的信息是相互补充的,可以学习更好的特征表示。
图3
接下来,我们进一步研究了为什么使用多尺度k-mer积分更适合判别性信息捕获。为此,我们利用注意力机制直观地解释我们的模型从两个顺序尺度(3-mer和6-mer)中学习的信息。我们在图中可视化了两个尺度的注意力热图。分别为3C和D。请注意,热图中的元素表示沿序列的两个位置的相关程度。图3C显示了我们的模型在3个mer尺度上训练前后学习的信息。如我们所见,与初始模型相比,训练后的注意力机制更集中在热图的对角线上。这表明与训练前相比,我们的模型学习了更多的本地判别信息。同样,图3D说明了我们的模型在另一个顺序尺度6-mer上训练前后学习的信息。相比之下,这个量表更侧重于训练后的全局信息。为此,我们可以得出结论,不同尺度的顺序模式会学习局部和全局信息,这可能对性能改进是互补的。
为了清楚地证明哪个序列区域对甲基化预测最重要,我们从三个具有不同DNA甲基化类型的物种中随机选择了三个序列,并应用注意力机制从这些序列中识别关键区域。如图所示。3E-G(左),对于每个序列,我们的模型在不同的顺序尺度下识别不同的区域。这进一步证实了不同的尺度捕获不同的重要信息。对于这些已识别的区域,我们使用注意力分数进一步提取并可视化了相应的基序。图3E-G(右)分别显示了我们的iDNA-ABF学习的基序和传统工具STREME[28]发现的基序。正如所见,我们学到的图案(用灰色窗口突出显示)几乎与每个物种的STREME图案相匹配。为了定量比较基序相似度,我们采用TOMTOM计算两个基序的相似度,该相似度由p值测量。p值越低表示基序一致性越高。如图所示。3E-G,我们的基序与STREME的基序高度相似,这表明我们的模型可以学习保守的顺序特征。
04iDNA-ABF充分探索了人类细胞系5mC预测中的基因组信息
在本节中,我们分析了我们的iDNA-ABF在人类细胞系中执行甲基化预测的能力。由于5mC是人类基因组中研究最充分的甲基化类型之一,因此我们选择了5mC甲基化来执行我们的方法。因此,我们构建了三个新的5mC数据集,分别对应于三种人类细胞系,包括GM12878,K562和HepG2。首先,我们讨论了甲基化序列区域长度对5mC甲基化预测的影响。因此,对于每个细胞系,我们构建了四个5mC数据集,其中每个5mC序列分别为11,41,71和101bp(碱基对)长。数据集的详细信息汇总在附加文件中。图4A显示了三种细胞系中随不同序列长度而变化的模型性能。一开始,随着序列长度的增加,模型性能显着提高,这表明更长的序列为模型带来了额外的基因组上下文信息。当长度为71bp时达到峰值。之后,模型性能逐渐下降。值得注意的是,使用11bp长的序列训练的模型表现出极差的性能,ACC约为55%。原因是阴性和阳性样品之间具有11个碱基范围的甲基化中心区域非常相似。这进一步表明甲基化与甲基化区域的上游和下游密切相关。
众所周知,5mC甲基化是经过充分研究的甲基化类型之一,得到了许多NGS数据的支持,例如ChIP-seq数据和ATAC-seq数据等。一个有趣的问题是,将NGS数据与序列数据相结合是否有助于更准确的预测。为此,我们选择了两个组蛋白修饰(HM)数据,H3k4me3和H3k36me3,据报道它们与5mC密切相关[31]。我们分别使用(1)仅序列数据,(2)仅ChIP-seq数据和(3)序列+ChIP-seq数据在三个细胞系上训练和测试模型。比较结果如图所示。4B–D.正如我们所看到的,与使用ChIP-seq数据训练的模型相比,使用序列数据训练的模型取得了显着更好的性能,在不同序列长度下的三个细胞系中,平均ACC、AUC和MCC分别领先10.4%、10.9%和21.1%。当将ChIP-seq数据与序列数据相结合进行模型训练时,所有性能指标都得到了进一步改进,取得了最高分,与使用序列数据训练的模型相比,平均ACC、AUC和MCC提高了3.8、5.2和8.1%,表明ChIP-seq数据和序列数据在改进的5mC预测方面是互补的。
图4
考虑到实际应用场景,从全基因组规模测量我们的iDNA-ABF在检测5mC分布方面的性能非常重要。因此,我们根据在HepG2上训练的iDNA-ABF模型,预测了来自人类基因组(GRCh38)的5k-bp长基因组区域(Chr1:187,000-192,000)的甲基化概率。预测过程如下。首先,我们使用一个71个基点长的窗口来筛选该区域。其次,挑选出满足以下两个要求的序列:(1)以碱基C为中心,(2)以CPG模式为中心。最终,将所得序列提交给我们的iDNA-ABF进行预测。我们的模型给出了每个候选站点的预测置信度。图4E显示了两个HM数据分布,分别是我们的模型预测的5mC分布和WGBS注释的真实5mC分布。从图中我们可以看到。4E,我们预测的5mC分布通常与真实的5mC站点分布重叠。此外,预测的5mCs与两个HM数据基本匹配,表明我们的预测具有功能意义。值得注意的是,我们发现我们的模型识别了一些未被WGBS识别的区域(带有蓝框,图4E),但它们与H3K4me3数据的信号匹配良好。这意味着我们的模型可能会发现潜在的新功能区域。虽然我们的模型也会产生一些误报,但从顺序箱的角度来看(这里,我们将100bp区域视为一个箱),预测的5mC区域分布与真正的5mC区域分布几乎相同。结果至少表明,我们的模型在5mC区域方面表现良好。这也可能有助于甲基化研究。
05iDNA-ABF在对看不见的人类细胞系进行5mC预测方面具有强大的性能
为了分析iDNA-ABF在看不见的细胞系中的预测性能,我们进行了跨细胞系验证。具体来说,我们在一种细胞系上训练了我们的模型,并在另一种细胞系上对其进行了评估。图5A显示了四个指标的热图结果,分别包括ACC、MCC、SN和SP。纵轴表示训练细胞系,而横轴表示测试细胞系。如图所示5A,我们的模型在跨细胞系验证下获得了相对稳定的ACC和MCC。此外,我们还可以看到,在K562上评估时,我们在GM12878上训练的模型达到了最高的SN,与在HepG2上训练的模型相比,相对提高了16%。为了更好地解释,我们介绍了三种人类细胞系甲基化中心区域的概率分布分析。图5B和C分别显示了三种细胞系中阳性和阴性样品的概率分布。一方面,从图可以看出。5B认为K562的正图案标志与GM12878更相似,而不是HepG2在-1到1的位置。另一方面,我们从图观察到。5C认为K562的负基序标志与GM12878的正基序标志在-1到1的位置相同,这可以解释我们在K562上测试时在GM12878上训练的模型的最低SP。此外,我们在图中找到。5A,我们的模型在跨细胞系验证的热图中在SP方面表现不佳。这可能是所有三个细胞系之间的负面基序徽标完全不同。为此,通过跨细胞系验证结果,我们可以得出结论,即使对于看不见的细胞系,我们的模型也具有强大的性能。这进一步探讨了我们模型的应用价值。
图5
06iDNA-ABF具有良好的迁移学习能力,捕获甲基化序列模式的特异性
5mC甲基化主要发生在人类基因组中具有CpG模式的序列内;实际上,在少数情况下,甲基化也在CHH和CHG模式中检测到(其中H=A,C或T)。为了找出不同的甲基化序列模式是否相互关联,我们分别为三种细胞系构建了额外的CHG和CHH数据集。值得注意的是,CpG数据集中的序列数量远远超过CHG或CHH数据集中的序列数量。为了了解我们的模型在检测不同的甲基化模式方面是否具有良好的迁移学习能力,我们首先在CpG数据集上预训练了一个模型,并在CHG或CHH数据集上对其进行了微调,产生了另一个表示为“迁移学习模型”的模型。此外,我们还直接使用CHG或CHH数据集训练了一个模型进行比较,表示为“基线模型”。然后使用CHG或CHH数据集的相同测试数据集评估两个模型。两个数据集的性能如图所示。分别为6A和B。正如我们所看到的,“迁移学习模型”的性能始终优于基线模型,在三个细胞系中,平均AUC和AP分别增加了3.1%和3.3%。结果表明,我们的模型具有良好的迁移学习能力;预训练机制可以从一种特定模式中带来额外的判别信息,有利于目标模式的预测,从而提高预测性能。为了深入解释使用迁移学习提高性能的可能原因,我们进一步分析和比较了从三个模型中学习的基序,包括基线模型、迁移学习模型和仅在CpG数据集上训练的预训练模型。HepG2细胞系的基序比较结果如图所示。图6C以第1、第5和第9基元图为例,我们观察到迁移学习模型不仅保留了从预训练模型继承的一些CpG模式,而且还捕获了基线模型学习的CHG模式的特异性。此外,迁移学习模型还可以发现一些新的模式,例如第7个基元图,它与第3个基序图中的基线模型没有相似的模式。
图6
07从我们的模型中学到的基序具有生物学意义
接下来,我们进一步探讨了从上述三个模型(基线模型、预训练模型和迁移学习模型)中学习的基序(或顺序模式)是否具有生物学意义。因此,我们针对公共甲基化数据库topEnriched.MM检索了学习到的基序。有趣的是,从图。6D,我们发现我们的模型学习的基序可以与数据库中的一些功能基序显着匹配,这些基序之前被报道与甲基化机制密切相关。结果表明,我们的模型能够准确挖掘功能序列特征;另一方面,新发现的顺序基序也具有生物学意义,表明我们的模型在学习不同顺序模式之间的功能语义方面具有很强的能力。
讨论
本研究介绍了iDNA-ABF,这是一种仅通过基于基因组序列的生物语言学习来识别DNA甲基化的新方法。iDNA-ABF不仅能够跨物种和跨细胞系进行相对准确的甲基化预测,而且还使用可解释的注意力机制构建了从顺序水平到功能水平的映射,以深入研究DNA甲基化机制。
北医三院黄牛挂号预约电话,方式+流程+预约入口
联系人:医院挂号黄牛 | 微信:15011205632(挂号加微信)| 手机号:15011205632