OpenAI领衔,英伟达押注,这个AI制药赛道藏不住了
前不久,赛诺菲宣布和OpenAI合作,与AI药企Formation Bio一道构建一款AI驱动的药物开发软件。
这是OpenAI首次和药企大规模全流程合作,被认为是OpenAI大举进入生物医药的信号。
根据官方的说法,这次合作将汇集制药界一流的数据、软件和调整模型,开发贯穿药物开发全周期的定制化专属解决方案。
要知道,OpenAI的拿手好戏是聊天机器人,例如近期发布的GPT-4o,能够自然而富有情感地和人类进行对话。
无独有偶,OpenAI此前和Moderna宣布合作,双方共同创造了750个GPTs,覆盖了公司业务的各个环节,包括法律、研究、制造和商业化。
两笔合作是否意味着,生物医药的对话助手开始走入人们的视野?
相较于普通AI模型,生物医药对话模型的前沿产品哪儿,又能够解决什么样的困难?
01 为什么出现对话AI模型?
当前绝大多数的AI+药物研发模型都是高度专业化、用于特定任务的模型。
这些模型通常有较高的学习成本,操作通常比较复杂,并且这些需要针对每个特定应用进行微调,从而阻止任务之间的迁移和泛化。
ChatGPT等大语言模型开始蓬勃发展,给了模型开发者们不少灵感。
试想一下,如果化学家能够直接和大语言模型对话,仅通过多轮聊天就能让AI帮助生成分子,并且能进一步进行试验,并预测各种理化性质,是不是能够极大地简化药物发现流程?
前不久,mRNA头部公司BioNtech收购的人工智能公司InstaDeep发布了一款ChatNT,公司表示这是*个对用于 DNA、RNA 和蛋白质任务的多模式聊天助理。
简单来说,ChatNT建立在经过微调后的通用大语言模型上,而后在大量科学文本和生物分子序列上进行过训练, 包含总共 6.05 亿个 DNA 标记(即 36 亿个碱基对)和 2.73 亿个英文标记的数据集。
该模型能够理解单词与分子之间的关系,ChatNT不仅能理解生活语言,还能理解人类对话。它使用大量聊天数据进行训练,可以与用户进行互动。
据介绍,该模型能够回答关于DNA序列的40多个任务,涵盖了各种生物过程和模式。
这意味着研究人员可以为 ChatNT 提供 DNA 序列,并直接提出问题,例如“这个 DNA 序列是否可能使蛋白质发出绿光?”或“这个基因可能在哪些组织中活跃?”。
图:ChatNT的使用界面
总结就是 ChatNT能够对蛋白质、DNA、RNA等生物学分子执行多类任务。
蛋白质:ChatNT能检查蛋白质序列,并且预测其功能,可能有助于我们了解生物过程,甚至有助于设计新药。
DNA:DNA 不仅仅是静态遗传代码;一些区域控制着基因活动。在这方面,ChatNT识别调控元件,从而能够了解基因是如何开启和关闭的。
RNA:RNA 是 DNA 和蛋白质之间的信使,在加工过程中会发生不同的修饰。因此,通过分析 RNA 序列,ChatNT 可以揭示此过程中涉及的复杂步骤,从而深入了解基因表达。
多任务:ChatNT能够不断扩展自身,以便现在可以个性化医疗,以后诊断疾病,甚至在未来设计治疗方法。
实际上除开 ChatNT之外,2023年以来业界已经发布了多款关于生物医学的对话模型,尤其集中在科研领域,例如BioGPT、SciBite Chat等。
除开文本为主的医学文献对话模型外,业界也出现了例如蛋白质语言模型、化合物生成、临床试验等能执行复杂任务的AI对话助手。
02 生物医药对话模型,难点在哪儿?
实际上,当前对话大模型在生物医药领域还不是主流AI模型,仍然面临着不少困难。
首先,通用大语言模型以文本信息为主,这些数据有明确的定义且有顺序。但是生物和医药数据通常是结构化和非结构化的数据,它们复杂且没有组织,将这些数据处理成语言模型能够理解的形式非常重要。
生物数据往往包含多种模态的信息,如文本、图像、实验数据等。大语言模型需要在不同模态间进行有效的信息转换和融合,这对其跨模态理解能力提出了挑战。
其次,涉及到复杂的数据大语言模型可能无法捕捉和理解。例如对于药物研发非常重要的QSAR,因为这类关系极为复杂,语言模型无法直接描述,许多相互作用可能过于微妙而难以捕捉。
还有,AI幻觉现象仍然是较大的阻碍,生物对话系统在记忆和理解能力上存在局限性。这些系统可能会记住错误的知识,或者在理解能力不足的情况下产生偏见。
当然,很多团队已经意识到了这类问题,并且希望给出一定的解决方案。例如,ChIP-GPT就是一个专门针对生物医学数据库记录提取的大型语言模型,它在理解生物医学数据库中的复杂记录方面取得了显著成效。
除此之外,不少公司对于使用对话大模型有非常多的顾虑,尤其是大型制药公司。
一份针对200多名生命科学从业者的调查显示,超六成的Top20的大型制药公司已禁止员工使用 OpenAI 的生成式人工智能工具 ChatGPT,原因主要是担心敏感的内部数据可能泄露给竞争对手。
对于制药公司而言,内部数据的管控一般非常严格,任何数据事故的后果都比任何可预见的结果更为严重,尤其是涉及高度敏感的专利和临床数据。而此前ChatGPT有信息泄露的前科,被曝出许某些用户查看其他用户的聊天记录。
尽管如此,许多生命科学专业人士仍在定期使用 ChatGPT。超过一半的受访者表示,他们每月至少使用几次,超过四分之一的受访者每周使用该工具几次,甚至每天都使用。
这或许也是为什么Moderna和赛诺菲更愿意和OpenAI进行合作,不仅能够定制化GPT,还能极大程度地保护内部数据。
当合作的窗口被打开,这或许是大语言模型公司和制药企业可以效仿的案例。
03 对话生物模型的未来
即使到现在,生物医药版本的ChatGPT们并不是AI制药的主流。
对于生物学和药物研发这样复杂的工程,当前生物医药版本的ChatGPT对于复杂问题预测和模拟的能力有限。
况且,这类模型受限于自身的知识水平,无法回答开放边界的问题。这意味着它们只能处理已知的、封闭域的问题,而无法应对未知或开放性问题。
我更想讨论的是,对话机器人/AI Agents未来会不会成为生物学家和药化专家与AI进行深度互动的工具?
通过聊天,对话大模型能够使复杂的生物医药知识变得直观,使每个人都能轻松获得储存在里面的知识。
而大语言模型有潜力执行非常广泛的下游任务,而不需要对特定条件进行调整,个性化医疗有可能因此而大幅度受益。
但想象一下,如果未来科学家们能够通过与AI交互和迭代的方式获得查询的答案,拓展人类知识的边界,这样的图景正在缓缓展开。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
推荐阅读
-
多股涨停,光伏的拐点到了吗?最近两年的光伏投资人有点“苦”,产能过剩和价格战的影响下,光伏ETF已经从2022年8月的高点至今跌了55%。但最近光伏板块开始频频反弹,今天光伏股再次集体上涨...2024-05-31 06:36:00
-
上交所:将研究制定新一期指数业务行动方案上交所暨中证指数有限公司指数专家委员会会议近日召开。会上各位专家委员一致认为,中央金融工作会议要求“加快投资端改革”,新“国九条”指出“推动指数化投资发展”,为...2024-05-31 05:57:00
-
平安健康保险“颐享易保”上线,为客户提供"省心、省时、又省钱"的健康管理健康是幸福之基,确定“健康中国”战略是我国改革开放40年后提出来的又一个重要目标。我国人民对更健康、更长寿、更高品质的生活需求也日益增长,提供科学、专业、定制的...2024-05-31 05:56:00
-
Levi's174;大中华区董事总经理杨今:中国市场的机会在全世界首屈一170年前,Levi's#174;因美国淘金热发明了牛仔裤,如今,Levi's#174;秉持“在中国、为中国”的理念,打造出夏日“神裤”,突破性地推出了Levi...2024-05-31 04:56:00
-
世界首款类脑互补视觉芯片研制成功30日出版的《自然》杂志以封面文章形式刊登了清华大学精密仪器系类脑计算研究团队的研究成果:他们研制出世界首款类脑互补视觉芯片“天眸芯”。该团队之前曾研制出异构融...2024-05-31 04:53:00