上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技與高校共同發(fā)布通用視覺(jué)技術(shù)體系“書(shū)生”

2021-11-17 17:25:54來(lái)源:威易網(wǎng)作者:

 11月17日,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技SenseTime、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布新一代通用視覺(jué)技術(shù)體系“書(shū)生”(INTERN),該體系旨在系統(tǒng)化解決當(dāng)下人工智能視覺(jué)領(lǐng)域中存在的任務(wù)通用、場(chǎng)景泛化和數(shù)據(jù)效率等一系列瓶頸問(wèn)題。

1117日,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技SenseTime、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布新一代通用視覺(jué)技術(shù)體系“書(shū)生”(INTERN),該體系旨在系統(tǒng)化解決當(dāng)下人工智能視覺(jué)領(lǐng)域中存在的任務(wù)通用、場(chǎng)景泛化和數(shù)據(jù)效率等一系列瓶頸問(wèn)題。目前技術(shù)報(bào)告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平臺(tái)發(fā)布[i]arxiv.org/abs/2111.08687),基于“書(shū)生”的通用視覺(jué)開(kāi)源平臺(tái)OpenGVLab也將在明年年初正式開(kāi)源,向?qū)W術(shù)界和產(chǎn)業(yè)界公開(kāi)預(yù)訓(xùn)練模型及其使用范式、數(shù)據(jù)系統(tǒng)和評(píng)測(cè)基準(zhǔn)等。OpenGVLab將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的OpenMMLab[ii]github.com/open-mmlab)、OpenDILab[iii]github.com/opendilab)一道,共同構(gòu)筑開(kāi)源體系OpenXLab,助力通用人工智能的基礎(chǔ)研究和生態(tài)構(gòu)建。

\ 

上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布新一代通用視覺(jué)技術(shù)體系“書(shū)生”(INTERN任務(wù)通用和數(shù)據(jù)學(xué)習(xí)效率是制約當(dāng)前人工智能發(fā)展的核心瓶頸問(wèn)題。根據(jù)相關(guān)技術(shù)報(bào)告,一個(gè)“書(shū)生”基模型即可全面覆蓋分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、深度估計(jì)四大視覺(jué)核心任務(wù)。在ImageNetwww.image-net.org/challenges/LSVRC/index.php)等26個(gè)最具代表性的下游場(chǎng)景中,書(shū)生模型廣泛展現(xiàn)了極強(qiáng)的通用性,顯著提升了這些視覺(jué)場(chǎng)景中長(zhǎng)尾小樣本設(shè)定下的性能。

相較于當(dāng)前最強(qiáng)開(kāi)源模型(
OpenAI 2021年發(fā)布的CLIP),“書(shū)生”在準(zhǔn)確率和數(shù)據(jù)使用效率上均取得大幅提升。具體而言,基于同樣的下游場(chǎng)景數(shù)據(jù),“書(shū)生”在分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割及深度估計(jì)四大任務(wù)26個(gè)數(shù)據(jù)集上的平均錯(cuò)誤率分別降低了40.2%、47.3%、34.8%9.4%。“書(shū)生”在數(shù)據(jù)效率方面的提升尤為令人矚目:只需要1/10的下游數(shù)據(jù),就能超過(guò)CLIPopenai.com/blog/clip)基于完整下游數(shù)據(jù)的準(zhǔn)確度,例如在花卉種類(lèi)識(shí)別FLOWERwww.robots.ox.ac.uk/~vgg/data/flowers/102/index.html)任務(wù)上,每一類(lèi)只需兩個(gè)訓(xùn)練樣本,就能實(shí)現(xiàn)99.7%的準(zhǔn)確率。

隨著人工智能賦能產(chǎn)業(yè)的不斷深入,人工智能系統(tǒng)正在從完成單一任務(wù)向復(fù)雜的多任務(wù)協(xié)同演進(jìn),其覆蓋的場(chǎng)景也越來(lái)越多樣化。在自動(dòng)駕駛、智能制造、智慧城市等眾多的長(zhǎng)尾場(chǎng)景中,數(shù)據(jù)獲取通常困難且昂貴,研發(fā)通用人工智能模型,對(duì)于降低數(shù)據(jù)依賴(lài)尤為重要。而突破“工業(yè)應(yīng)用紅線(xiàn)”的模型,需滿(mǎn)足同時(shí)完成多任務(wù)、覆蓋大量長(zhǎng)尾場(chǎng)景,且基于下游小樣本數(shù)據(jù)進(jìn)行再訓(xùn)練等要求。上海人工智能實(shí)驗(yàn)室、商湯科技、港中文以及上海交大聯(lián)合推出的“書(shū)生”通用視覺(jué)技術(shù)體系,體現(xiàn)了產(chǎn)學(xué)研合作在通用視覺(jué)領(lǐng)域的全新探索,為
走向通用人工智能邁出堅(jiān)實(shí)的一步。借助“書(shū)生”通用視覺(jué)技術(shù)體系,業(yè)界可憑借極低的下游數(shù)據(jù)采集成本,快速驗(yàn)證多個(gè)新場(chǎng)景,對(duì)于解鎖實(shí)現(xiàn)人工智能長(zhǎng)尾應(yīng)用具有重要意義。

“當(dāng)前發(fā)展通用視覺(jué)的核心,是提升模型的通用泛化能力和學(xué)習(xí)過(guò)程中的數(shù)據(jù)效率。面向未來(lái),‘書(shū)生’通用視覺(jué)技術(shù)將實(shí)現(xiàn)以一個(gè)模型完成成百上千種任務(wù),體系化解決人工智能發(fā)展中數(shù)據(jù)、泛化、認(rèn)知和安全等諸多瓶頸問(wèn)題。”上海人工智能實(shí)驗(yàn)室主任助理喬宇表示。

商湯科技研究院院長(zhǎng)王曉剛表示,“‘書(shū)生’通用視覺(jué)技術(shù)體系是商湯在通用智能技術(shù)發(fā)展趨勢(shì)下前瞻性布局的一次嘗試,也是
SenseCore商湯AI大裝置背景下的一次新技術(shù)路徑探索。‘書(shū)生’承載了讓人工智能參與處理多種復(fù)雜任務(wù)、適用多種場(chǎng)景和模態(tài)、有效進(jìn)行小數(shù)據(jù)和非監(jiān)督學(xué)習(xí)并最終具備接近人的通用視覺(jué)智能的期盼。希望這套技術(shù)體系能夠幫助業(yè)界更好地探索和應(yīng)用通用視覺(jué)AI技術(shù),促進(jìn)AI規(guī);涞。”

\ 

書(shū)生(
INTERN)在分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、深度估計(jì)四大任務(wù)26個(gè)數(shù)據(jù)集上,基于同樣下游場(chǎng)景數(shù)據(jù)(10%),相較于最強(qiáng)開(kāi)源模型CLIP-R50x16,平均錯(cuò)誤率降低了40.2%,47.3%,34.8%,9.4%。同時(shí),書(shū)生只需要10%的下游數(shù)據(jù),平均錯(cuò)誤率就能全面低于完整(100%)下游數(shù)據(jù)訓(xùn)練的CLIP。

階梯式學(xué)習(xí):七大模塊打造全新技術(shù)路徑

 \
書(shū)生(INTERN)技術(shù)體系可以讓AI模型處理多樣化的視覺(jué)任務(wù)

通用視覺(jué)技術(shù)體系“書(shū)生”(
INTERN)由七大模塊組成,包括通用視覺(jué)數(shù)據(jù)系統(tǒng)、通用視覺(jué)網(wǎng)絡(luò)結(jié)構(gòu)、通用視覺(jué)評(píng)測(cè)基準(zhǔn)三個(gè)基礎(chǔ)設(shè)施模塊,以及區(qū)分上下游的四個(gè)訓(xùn)練階段模塊。

書(shū)生作為中國(guó)古代讀書(shū)人的經(jīng)典形象,代表著一個(gè)通過(guò)不斷學(xué)習(xí)、不斷成長(zhǎng)進(jìn)而擁有各方面才能的人格化角色:從基礎(chǔ)的知識(shí)技能學(xué)習(xí)開(kāi)始,到對(duì)多種專(zhuān)業(yè)知識(shí)觸類(lèi)旁通,進(jìn)而成長(zhǎng)為擁有通用知識(shí)的通才。將全新的通用視覺(jué)技術(shù)體系命名為“書(shū)生”,意在體現(xiàn)其如同書(shū)生一般的特質(zhì),可通過(guò)持續(xù)學(xué)習(xí),舉一反三,逐步實(shí)現(xiàn)通用視覺(jué)領(lǐng)域的融會(huì)貫通,最終實(shí)現(xiàn)靈活高效的模型部署。

當(dāng)前的
AI系統(tǒng)開(kāi)發(fā)模式下,一個(gè)AI模型往往擅長(zhǎng)處理一項(xiàng)任務(wù),對(duì)于新場(chǎng)景、小數(shù)據(jù)、新任務(wù)的通用泛化能力有限,導(dǎo)致面對(duì)千變?nèi)f化的任務(wù)需求時(shí),須獨(dú)立開(kāi)發(fā)成千上萬(wàn)種AI模型。同時(shí),研究人員每訓(xùn)練一個(gè)AI模型,都需構(gòu)建標(biāo)注數(shù)據(jù)集進(jìn)行專(zhuān)項(xiàng)訓(xùn)練,并持續(xù)進(jìn)行權(quán)重和參數(shù)優(yōu)化。這種低效的學(xué)習(xí)訓(xùn)練方法,導(dǎo)致人力、時(shí)間和資源成本居高不下,無(wú)法實(shí)現(xiàn)高效的模型部署。

“書(shū)生”的推出能夠讓業(yè)界以更低的成本獲得擁有處理多種下游任務(wù)能力的
AI模型,并以其強(qiáng)大的泛化能力支撐智慧城市、智慧醫(yī)療、自動(dòng)駕駛等場(chǎng)景中大量小數(shù)據(jù)、零數(shù)據(jù)等樣本缺失的細(xì)分和長(zhǎng)尾場(chǎng)景需求。

 \

通用視覺(jué)技術(shù)體系“書(shū)生”(
INTERN)由七大模塊組成,包括3個(gè)基礎(chǔ)設(shè)施模塊、4個(gè)訓(xùn)練階段模塊

持續(xù)成長(zhǎng):“四階段”提升通用泛化

在“書(shū)生”(
INTERN)的四個(gè)訓(xùn)練階段中,前三個(gè)階段位于該技術(shù)鏈條的上游,在模型的表征通用性上發(fā)力;第四個(gè)階段位于下游,可用于解決各種不同的下游任務(wù)。

第一階段,著力于培養(yǎng)“基礎(chǔ)能力”,即讓其學(xué)到廣泛的基礎(chǔ)常識(shí),為后續(xù)學(xué)習(xí)階段打好基礎(chǔ);第二階段,培養(yǎng)“專(zhuān)家能力”,即多個(gè)專(zhuān)家模型各自學(xué)習(xí)某一領(lǐng)域的專(zhuān)業(yè)知識(shí),讓每一個(gè)專(zhuān)家模型高度掌握該領(lǐng)域技能,成為專(zhuān)家;第三階段,培養(yǎng)“通用能力”,隨著多種能力的融會(huì)貫通,“書(shū)生”在各個(gè)技能領(lǐng)域都展現(xiàn)優(yōu)異水平,并具備快速學(xué)會(huì)新技能的能力。

在循序漸進(jìn)的前三個(gè)訓(xùn)練階段模塊,“書(shū)生”在階梯式的學(xué)習(xí)過(guò)程中具備了高度的通用性。當(dāng)進(jìn)化到第四階段時(shí),系統(tǒng)將具備“遷移能力”,此時(shí)“書(shū)生”學(xué)到的通用知識(shí)可以應(yīng)用在某一個(gè)特定領(lǐng)域的不同任務(wù)中,如智慧城市、智慧醫(yī)療、自動(dòng)駕駛
,實(shí)現(xiàn)廣泛賦能。

產(chǎn)學(xué)研協(xié)同:開(kāi)源共創(chuàng)通用
AI生態(tài)

作為
AI技術(shù)的下一個(gè)重大里程碑,通用人工智能技術(shù)將帶來(lái)顛覆性創(chuàng)新,實(shí)現(xiàn)這一目標(biāo)需要學(xué)術(shù)界和產(chǎn)業(yè)界的緊密協(xié)作。上海人工智能實(shí)驗(yàn)室、商湯科技、港中文以及上海交大未來(lái)將依托通用視覺(jué)技術(shù)體系“書(shū)生”(INTERN),發(fā)揮產(chǎn)學(xué)研一體化優(yōu)勢(shì),為學(xué)術(shù)研究提供平臺(tái)支持,并全面賦能技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用。

明年年初,基于“書(shū)生”的通用視覺(jué)開(kāi)源生態(tài)
OpenGVLab將正式開(kāi)源,向?qū)W術(shù)界和產(chǎn)業(yè)界公開(kāi)預(yù)訓(xùn)練模型、使用范式和數(shù)據(jù)庫(kù)等,而全新創(chuàng)建的通用視覺(jué)評(píng)測(cè)基準(zhǔn)也將同步開(kāi)放,推動(dòng)統(tǒng)一標(biāo)準(zhǔn)上的公平和準(zhǔn)確評(píng)測(cè)。OpenGVLab將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的OpenMMLab、OpenDILab一道,共同構(gòu)筑開(kāi)源體系OpenXLab,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。
 
附:
1.  技術(shù)報(bào)告《INTERN: A New Learning Paradigm Towards General Vision
鏈接:
arxiv.org/abs/2111.08687

2. 
OpenMMLab開(kāi)源網(wǎng)址:
github.com/open-mmlab
 
 
3. OpenDILab開(kāi)源網(wǎng)址:
github.com/opendilab
 
關(guān)鍵詞:商湯科技