想象一下,医生写几个字描述一种专门用于治疗病人的药物,AI可以自动生成所需药物的确切结构这听起来像科幻小说,但伴随着自然语言和分子生物学交叉领域的进展,未来很可能成为现实传统上,药物创造通常依赖于人工设计和构建分子结构,然后可能需要花费十几亿美元和十几年时间才能将一种新药推向市场
最近,人们对使用深度学习工具来改进计算机药物设计很感兴趣,这个领域通常被称为化学信息学可是,这些实验中的大多数仍然只关注分子及其低级特征,如logP,辛醇/水分配系数等未来需要在更高层次上控制分子设计,通过自然语言轻松实现控制
来自伊利诺伊大学香槟分校和Google X的研究人员提出了两项新任务,以实现分子和自然语言转换的研究目标:1)为分子生成描述,2)在文本的指导下,从零开始生成分子。
如下图所示,文本引导分子生成的任务是创建一个与给定的自然语言描述相匹配的分子,这将有助于加速许多科学领域的研究。
在多模态模型领域,自然语言处理和计算机视觉的交叉得到了广泛的研究通过自然语言对图像进行语义级控制取得了一些进展,人们对多模态数据和模型越来越感兴趣
本研究提出的分子语言任务与V+L任务有一些相似之处,但也有几个特殊的困难:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的分子描述对,3)同一分子可以有多种功能,需要多种不同的描述方式,这导致4)现有的评价指标(如BLEU)无法全面评价这些任务。
此外,为了全面评价分子描述或世代模型,提出了一个新的指标Text2MolText2Mol重新调整了检索模型的使用,以分别评估实际分子/描述和生成的描述/分子之间的相似性
多模态文本—分子表示模型MolT5
研究人员可以从互联网上抓取大量的自然语言文本例如,Raffel等人建立了一个基于爬行的公共数据集,其中包含超过700GB的干净的自然英语文本另一方面,我们也可以从锌—15等公共数据库中获得超过10亿个分子的数据集受最近大规模预训练进展的启发,本研究提出了一种新的自监督学习框架molt 5(molt 5,Molecular T5),它可以利用大量未标记的自然语言文本和分子串
图3显示了MolT5的架构图在本研究中,首先使用T5.1.1的公共检查点之一初始化编码器—解码器变换器模型之后,他们以替换损坏的跨度为目标对模型进行预训练具体来说,在每个预训练步骤中,该研究对包含自然语言序列和微笑序列的迷你批次进行采样对于每个序列,研究人员会随机选择序列中的一些单词进行修改每个连续区间中被破坏的令牌被替换为标记令牌(如图3中的(x)和(y)所示)下一个任务是预测辍学跨度
分子可以被认为是一种语言,具有非常独特的语法直观地说,本研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练一个语言模型,两个语料库之间没有明确的对齐关系这种方法类似于多语种模型如mBERT,mBART的预训练由于mBERT和其他模型显示了出色的跨语言能力,本研究还预计MolT5预训练的模型将有助于文本到分子的翻译任务
经过预训练后,可以针对分子描述或生成对预训练模型进行微调(如图3的下半部分所示)在分子生成中,输入是描述,输出是目标分子的SMILES表示另一方面,在分子描述中,输入是某个分子的SMILES字符串,输出是描述输入分子的文本
实验结果
下表显示了分子描述测试的结果发现T5或MolT5在生成描述分子的逼真语言方面比《变形金刚》或《RNN》好得多
下图显示了不同模型输出的几个示例。
生成不同模型结果的示例。
总体而言,RNN模型在分子生成方面优于变压器模型,而大规模预训练模型在分子描述任务方面的表现优于RNN和变压器模型众所周知,扩大模型规模和预训练数据会导致性能的显著提高,但这项研究的结果仍然令人惊讶
例如,默认的T5模型(仅在文本数据上进行预训练)可以生成比RNN更接近真实值的分子,并且通常是有效的而且伴随着语言模型规模的扩大,这种趋势还在持续,因为770M参数的T5—large比60M参数的MolT5—small要好尽管如此,MolT5中的预训练稍微改善了一些分子生产结果,特别是在有效性方面
下图显示了模型的结果,并根据输入描述对其进行了编号发现MolT5比T5更能理解操作分子的指令
演示由不同模型生成的分子实例。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
大北农发布公告,公司控股及参股公司生猪销售数量当月合计为49.81万头,1-9月累计为416.05万头;销售收入当月合计为8.86亿元,1-9月累计为67.71...
格隆汇10月8日丨立华股份公布,2023年9月销售肉鸡4206.19万只,销售收入13.20亿元,毛鸡销售均价15.38元/公斤,环比变动分别为2.36%、5....
格隆汇10月8日丨汇宇制药公布,公司全资子公司SeacrossPharmaceuticalsLtd.于近日收到巴基斯坦药品管理局(简称“巴基斯坦药监局”)核准签...
今天是10月8日,各大金店黄金价格涨势暂歇,均价格不变,与昨日一致,还是很高。目前,金价最高的金店为周六福,不涨不跌,报价588元/克。而金价最低的金店为菜百,...
10月7日,安徽省省直住房公积金管理分中心发布《关于进一步优化住房公积金使用政策的通知》。《通知》包括住房公积金贷款、住房公积金提取等两大方面,政策自2023年...
目前,小米已经成为全球前三的智能手机厂商。该公司生产入门级、中端和旗舰智能手机,迎合广泛的用户群。但是对于小米而言,他们还需要更多的用户。近日,手机中国注意到,...
转自:经济日报 e公司讯,沪深交易所近日分别发布《关于进一步规范股份减持行为有关事项的通知》,对此前证监会发布的“减持新规”监管要求进行了细化,确定了更加...
近日,随着一声机车汽笛长鸣,装载165辆汽车的X8489次中欧班列从西安国际港站缓缓驶出,一路向西开往俄罗斯首都莫斯科。这标志着中欧班列(西安)自2013年开行...
近日,由权威财经新闻媒体《财经》杂志联合科创数据研究中心共同推出国家情怀mdash;2023科创板四周年系列评选,皖仪科技(688600)获得评委的一致认可,荣...
券商行业自2015年牛市后就一直有着牛市旗手的称号,然而回头来看,券商板块的每次异动已经逐渐不能预期指数的上涨行情。 随着指数波动下降,以及投资需求的日益增加...
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 中秋国庆假期国内出行旅游市场恢复,9月PMI重返扩张区间 主要内容 国内市场...
据中国工业经济联合会消息,由国家制造强国建设战略咨询委员会指导,中国工业经济联合会联合十大全国性行业联合会(协会)、国际组织、研究机构、主流媒体等共同主办的20...
美国劳工部6日发布数据称,美国9月份非农业部门新增就业33.6万人,失业率环比持平,仍维持在3.8%。 这一数据创造了自今年2月以来的最高值。在美联储明确...
记者10月7日自辽宁省贸促会获悉,2023中国·沈阳国际汽车展览会(以下简称“沈阳十一国际车展”)6日落下帷幕。在为期六天的车展期间,现场人潮不断,展会共产生订...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...