阿里云38篇論文被頂會ACL錄用,通義團隊披露多項大模型前沿技術

2024-08-14 10:15:27來源:威易網作者:

8月14日,計算語言學和自然語言處理領域的頂級學術會議ACL 2024年會本周在泰國舉行,阿里云共有38篇高水平論文被大會錄用,包括通義千問團隊多篇大模型相關論文,主題涉及大模型SFT技術、LLM角色扮演能力、多模態(tài)模

8月14日,計算語言學和自然語言處理領域的頂級學術會議ACL 2024年會本周在泰國舉行,阿里云共有38篇高水平論文被大會錄用,包括通義千問團隊多篇大模型相關論文,主題涉及大模型SFT技術、LLM角色扮演能力、多模態(tài)模型測評基準等。設在曼谷大會現(xiàn)場的通義展臺被世界各地的NLP研究人員和開發(fā)者圍觀,通義成了現(xiàn)場最受關注的中國大模型。

\

ACL 年會(Annual Meeting of the Association for Computational Linguistics)由國際計算語言學協(xié)會組織,是計算語言學和自然語言處理領域排名第1的頂級學術會議。ACL 2024是該協(xié)會的第62屆會議,今年大會特別關注“以開放科學、開放數(shù)據(jù)、開放模型促進可復現(xiàn)的自然語言處理研究”這一話題。

阿里云一直以來都是ACL論文入選數(shù)量最高的科技公司之一,今年累計有38篇文章被收錄,包括16篇主會論文。作為中國大模型“開源開放”力量的代表,通義大模型團隊在本次大會披露了多項大模型前沿技術,并與世界各地的NLP研發(fā)人員和開發(fā)者面對面交流。

《Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment》首次提出用于大模型角色扮演的自我對齊策略DITTO,顯著提升了LLM的角色扮演能力,通義團隊已將DITTO開源;《AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension》介紹了通義團隊推出的音頻語言理解模型測評基準AIR-Bench,用于評估模型的生成式指令跟隨能力,填補了業(yè)界空白;《How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition》通過一系列實驗展示了SFT數(shù)據(jù)如何影響LLM的數(shù)學、代碼、人類對齊能力,可為研究者和開發(fā)者的SFT工作提供借鑒。

\

海外開發(fā)者基于Qwen訓練了泰語大模型和東南亞語大模型

自2023年8月以來,通義千問已經開源數(shù)十款LLM、多模態(tài)和專項能力模型,Qwen系列開源模型下載量超過了2000萬。

在東南亞地區(qū),通義千問開源模型也有很多忠實用戶,開源社區(qū)經?梢娀赒wen訓練的泰語、越南語、東南亞語等大模型。比如,新加坡工程師劉乾基于Qwen1.5訓練了廣受歡迎的東南亞語大模型Sailor,覆蓋0.5B、1.8B、4B、7B、14B等全套尺寸;越南語工程師Nguyen Quan開發(fā)了越南語大模型,他說:“根據(jù)我們內部的基準測評,Qwen2基礎模型超越了目前市場上所有的閉源大語言模型”。

 

附:阿里云被ACL 2024收錄的論文清單