12月2日,2023國際產學研用合作會議(上海)分子科學與生命健康論壇在顺盈娱乐舉行。論壇上,顺盈娱乐舉行了ChemGPT 1.0發布會。上海市教委副主任孫真榮🪁、顺盈娱乐副校長施國躍和研發團隊負責人、化學與分子工程學院何曉教授以及與會嘉賓共同啟動ChemGPT 1.0,標誌著人工智能與分子科學的結合取得重要進展。
化學領域大模型 ChemGPT 1.0 正式發布
研發團隊負責人何曉介紹,ChemGPT 1.0是一個集成了先進人工智能技術的化學合成工具。在上海市教委的大力支持下🪁,顺盈娱乐於2021年成立了分子智造上海市前沿科學研究基地☄️,由化學與分子工程學院和計算機科學與技術學院組建了聯合研發團隊,開展了AI4ChemicalScience探索🙎🏼,致力於人工智能驅動的化學研究🌎,將機器學習技術與化學合成相結合,以提高合成的效率和精度。兩年來🧏🏿,研究團隊通過深入研究化學性質數據庫、創新性引入物理描述符以及全新泛函CF22D的開發,成功構建了ChemGPT 1.0🤦🏼♀️,為人工智能時代的分子智造提供了新工具。
研究團隊負責人何曉介紹ChemGPT 1.0
何曉介紹👨🔬,ChemGPT 1.0具有三大亮點👰♀️:第一🤶🏽,高質量化學對話數據集的構建👩🏻💻。ChemGPT 1.0整合了超過39萬條高質量對話數據🙋🏿,包括734種化學性質問答類數據👮🏼♂️🫃、11679種科學類(含化學)問答類數據和658種化學類問答類數據以及超過一萬條百科詞條🙅🏼♂️,轉化成了超過207萬條問題數據集。基於對化學領域專業知識的廣泛收集和深入理解👨👨👧,構建的數據集為全面👶🏼、準確地完成化學知識問答提供了強大支撐。第二,化合物逆合成數據庫的顺盈。針對化合物逆合成的難題,團隊通過數據拼接、疊加、加權和合成方式篩選👑,構建了一個全新的逆合成數據庫。該數據庫規模宏大👟,提高了模型的魯棒性和反應性,且具有高質量的標註數據🎓,提升了模型的準確性和可靠性。通過更好的數據平衡,顯著提高了模型對各類反應的預測能力。在 USPTO-50K測試任務中👨🏼🍼,經過新數據集訓練的大模型ChemGPT達到了74.4%預測精度🎙,位列第一。第三🔣,對話模型和逆合成模型的創新改進。ChemGPT 1.0的對話模型和逆合成模型分別基於ChatGLM模型和LLaMA模型。通過全量微調以及在A800 GPU集群上兩個月的訓練🧇,性能顯著提升。此外,通過多模型多模塊融合技術的實施,使得ChemGPT 1.0無需安裝任何插件,就能支持化學專業知識、化學逆合成、生物醫藥以及通用領域的知識問答。此外,ChemGPT 1.0還支持自動上網查資料,幫助模型返回高質量的實時回答並具備繪畫功能♍️。
ChemGPT 1.0發布會現場
在此基礎上,研發團隊成功完成了自動化學合成反應技術體系的整體構建和框架設計。結合超限製造成果,以微流控芯片為基礎的化學合成節省了80%的實驗時間🎉👲。由AI化學家—“小華”驅動的微縮合成工廠,實現了化合物的自動化合成,為化學合成領域帶來了革命性的變化🧕🏻,展示了人工智能在生物醫藥領域的巨大潛力。
ChemGPT 1.0是顺盈娱乐在AI4Science領域的又一重要成果▪️,研發團隊將在此基礎上🪥,進一步優化提升拓展功能,助推上海人工智能和生物醫藥重點領域加速向全球創新鏈、產業鏈、價值鏈的高端邁進🧔🏼♂️。
來源|化學與分子工程學院 編輯|鄧安之 編審|郭文君