分享好友 最新资讯首页 最新资讯分类 切换频道
百度螺旋桨PaddleHelix论道“AI+生物计算”,加速推进多维价值释放
2024-11-07 22:43

传统药研瓶颈待解

百度螺旋桨PaddleHelix论道“AI+生物计算”,加速推进多维价值释放

预训练或成行业探索新方向

目前,伴随全球生物医药市场规模持续上涨,新药研发的投入产出比却持续下滑,药物研发面临的长周期、高投入、高风险等问题凸显。传统药物研发在尝试了生物实验、传统机器学习等方法后,面对大量无标注的数据,高要求的泛化能力,以及生物计算领域的特性,终于迈向拥有自监督和多任务学习融合能力,又考虑生物领域研究对象特性的预训练模型。

反观以化合物、DNA与RNA、蛋白质为主要研究对象的生物计算,何径舟表示,在此之前,预训练模型在NLP、CV、跨模态等AI领域已相继展现出通用的AI能力、优秀的图像分类效果,以及强大的生成能力,构建基于预训练技术的分子表征模型、蛋白表征模型、组学表征模型,使之成为生物计算的底座,将有助于解决传统机器学习应用在生物领域的问题。

预训练模型发力

释放多维技术优势

基于预训练技术,螺旋桨PaddleHelix已经在化合物表征和蛋白质表征等研究方向上取得重大进展。

在化合物领域,螺旋桨 PaddleHelix 团队揭示了一种基于三维空间结构信息的化合物建模方法,即“几何构象增强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),首次在全球范围内将化合物的几何结构信息引入自监督学习和分子表示模型,并在下游十多项的属性预测任务中取得 SOTA,成为百度在 AI 赋能药物研发领域对外公开的又一项重磅成果。

业界之前的预训练方法没有考虑化合物的三维空间结构,而空间结构对于化合物性质至关重要。凭借化合物表征模型GEM在基于空间结构的图神经网络和多个几何级别的自监督学习任务上的技术创新,该研究于今年2月登上了国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。

在蛋白质领域,蛋白的建模技术能够有效表征蛋白,对预测蛋白结构和预测蛋白-蛋白相互作用(PPI)来说至关重要 。螺旋桨PaddleHelix团队以“蛋白PPI表征模型S2F”为例分享了相关进展。蛋白-蛋白相互作用问题与蛋白的结构和功能密切相关,单独使用蛋白质序列很难描述蛋白质的结构和功能。螺旋桨创新性地提出,通过构建多模态的蛋白预训练技术,应用在PPI任务上。该模型在跨物种蛋白PPI、抗体-抗原亲和力预测、SARS-CoV-2的抗体中和预测,以及突变驱动的蛋白结合亲和力变化的预测上,取得SOTA结果,相比于其他蛋白质表示模型有5%-10%的提升。

在本次科技年会上,螺旋桨PaddleHelix团队还透露,螺旋桨基于飞桨框架,联合国内多家超算中心,在国产的软硬件上,完整适配并跑通了AlphaFold2的训练和推理代码,实现千万级别的蛋白质initial training训练时间从AlphaFold2的7天压缩到2.6天。相关代码也将于3月底在螺旋桨PaddleHelix平台开源,为国内相关科研工作者提供更多的选择。

AI+生物计算成果涌动

螺旋桨全面赋能生物医药产业

除了技术上的不断创新,螺旋桨PaddleHelix在药物研发等应用场景领域取得了多项落地进展,全面赋能生物医药产业。

在药物研发领域,基于螺旋桨打造的“ADMET成药性预测模型”已经在biotech公司实际业务管线中完成商业化落地;药物虚拟筛选pipeline在first in class的合作管线中应用,并成功筛选到活性在微摩尔级别的苗头化合物。相关的算法模型也被收录在KDD 2021和BIBM 2021等会议上。

在蛋白领域,螺旋桨PaddleHelix团队运用多模态的蛋白PPI表征模型S2F,联合合作伙伴,共同推进在新冠变异病毒奥密克戎上的研究。通过百度的算法,预测新冠变异病毒奥密克戎的线性抗原表位,帮助合作伙伴研发变异毒株奥密克戎的疫苗,还能快速应对潜在的新型变异,后续也有望携手合作伙伴,在罕见病、癌症、免疫与代谢等疾病领域开创创新药物研发方案。

据悉,螺旋桨PaddleHelix是基于百度飞桨深度学习框架打造,通过螺旋桨生物计算开源工具集,搭建了生物计算和服务平台,为药物研发、疫苗设计和精准医疗三大场景提供强有力的支撑,同时也为生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴提供了AI算法模型,赋能生物医药产业。

百度在生物医药方面形成的核心能力已在GitHub开源,提供包括虚拟筛选、ADMET、DTI、PPI、蛋白结构预测等9大能力模块,为生物医药行业内的研究人员提供专业服务。

未来,螺旋桨PaddleHelix生物计算平台,将继续秉持开源开放的态度,期望与更多学术界和生物医药产业伙伴合作,加速AI与生物计算的融合创新,共同推动生物医药行业高质量发展。

GitHub地址:

https://github.com/PaddlePaddle/PaddleHelix

计算平台地址:https://paddlehelix.baidu.com

最新文章
阿里伴侣配合阿里巴巴打造全方位线上推广
在当今竞争激烈的电商时代,企业的线上推广至关重要。阿里巴巴作为全球知名的电商平台,为众多企业提供了广阔的发展空间。而阿里
Python大数据分析&人工智能教程 - Scrapy工作原理详解与实操案例
Scrapy是一个开源的、用Python编写的高性能网络爬虫框架,用于抓取网站数据和提取结构性数据。它是基于Twisted异步网络框架构建
AI智能写作助手:一站式解决内容创作、文章润色与高效写作的全面工具
在信息爆炸的时代内容创作已经成为企业、媒体和个人展现自我、传递价值的不可或缺手。面对海量的信息与日益增强的内容品质需求高
你的站点抗压么?推荐一款超方便的开源压测工具
这里是 HelloGitHub 推出的《讲解开源项目》系列,本期介绍一款标星 17.7k 纯 Go 语言实现的 HTTP(S) 压测工具——vegetaVegeta
【系统架构设计】计算机网络
OSI/RM 结构模型 1977年,国际标准化组织为适应网络标准化发展的需求,制定了开放系统互联参考模型(Open System Interconnectio
全世界规模最大战争排名,第一名居然是清朝时期!
自打人类走上进化这条路,就想着法儿想要证明【一伙人就该被另一伙人支配】。古罗马角斗士时代一方有多大势力,就看他有多少人的
python tk随机内容生成器
MyRandom ran=new MyRandom();System.out.println(ran.nextString(1));System.out.println(ran.nextString(50, OnlyNum));System
ai自动写文章在线 在线写文章自动生成器
身为文案工作者,我深感写作之重要且充满挑战。如今,随着人工智能(AI)写作平台的出现,我的写作历程出现了巨大变革。在此,很
AI写系统性综述ChatGPT还远远不够未来百年能否实现
在科学研究的浩瀚海洋中,科研人员时常面临一个棘手的问题:如何有效整合和理解海量的科学文献。尽管网络的普及极大地丰富了文献
全球AI半导体技术排名:韩国强势第三,未来发展值得关注
近年来,人工智能(AI)技术的迅猛发展促进了相关硬件的创新,尤其是AI半导体的需求日益上升。根据最新的研究报告和韩国媒体的报