1.?2022年最佳AI論文32篇:DALL·E 2、Stable Diffusion、ChatGPT等入選
大模型和文生圖、跨模態(tài)是今年毫無(wú)疑問(wèn)的熱點(diǎn),此外也有多篇GAN等視覺(jué)領(lǐng)域的文章。GitHub上還有這些論文的短視頻和文字解讀、代碼鏈接等。
從論文的主要貢獻(xiàn)機(jī)構(gòu)來(lái)看(有些機(jī)構(gòu)雖然有貢獻(xiàn)但排名較后有掛名嫌疑的,都被忽略不計(jì)了),似乎可以反映出各公司在AI領(lǐng)域的江湖地位:第一檔:Google 8篇,Meta 6篇雄踞前二名,OpenAI 3篇但有兩篇影響力巨大的(DALL·E 2和ChatGPT),如果按代表作評(píng)價(jià),可能不會(huì)輸給兩巨頭。第二檔:NVIDIA有2.5篇。第三檔:國(guó)內(nèi)騰訊、百度、微軟(出自亞研院)各1篇。國(guó)外有三星、迪士尼各1篇。Snap、Adobe都是0.5篇。
(資料圖片僅供參考)
高校總共5.5篇,不如兩巨頭一家,相比之下要遜色很多。其中:特拉維夫有1.5篇位居第一,但慕尼黑的Stable Diffusion影響巨大,應(yīng)該視為第一檔;CMU、南洋理工各1篇,第二檔;南加大和伯克利各0.5篇,第三檔。
鏈接:
https://github.com/louisfb01/best_AI_papers_2022
https://hub.baai.ac.cn/view/22798
2.?吳恩達(dá)的2022年終盤點(diǎn):生成式AI、ViT、大模型
在過(guò)去的一年,生成式AI迎來(lái)爆發(fā)式增長(zhǎng),由人工智能生成的圖片在社交平臺(tái)瘋狂傳播,引發(fā)大量爭(zhēng)議的同時(shí)也推動(dòng)了投資;視覺(jué) Transformer(ViT) 的工作也出現(xiàn)爆炸性增長(zhǎng),在過(guò)去一年中,研究人員共計(jì)發(fā)表超過(guò) 17,000 篇 ViT 論文;AlphaCode、Codex 等的推出便利了開(kāi)發(fā)者,大受歡迎;與此同時(shí),研究人員也在不斷拓寬語(yǔ)言模型的邊界,在解決可信度、偏見(jiàn)和實(shí)時(shí)性等問(wèn)題方面做出持續(xù)不斷的努力。?
鏈接:
https://mp.weixin.qq.com/s/nagtjtYD98OlJlyddt78Aw
3.?2022出圈的ML研究:爆火的Stable Diffusion、通才智能體Gato,LeCun轉(zhuǎn)推
今日,ML & NLP 研究者、Meta AI 技術(shù)產(chǎn)品營(yíng)銷經(jīng)理、DAIR.AI 創(chuàng)始人 Elvis S. 對(duì) 2022 年熱度很高的 12 篇機(jī)器學(xué)習(xí)論文進(jìn)行了匯總。帖子很火,還得到了圖靈獎(jiǎng)得主 Yann LeCun 的轉(zhuǎn)推。
鏈接:
https://mp.weixin.qq.com/s/zdc2pixGvLNwCZsaWkM7JA
4.?ChatGPT進(jìn)化的秘密
ChatGPT 是怎么變得這么強(qiáng)的?它的各種強(qiáng)大的能力到底從何而來(lái)?在這篇文章中,作者試圖剖析 ChatGPT 的突現(xiàn)能力(Emergent Ability),追溯這些能力的來(lái)源,希望能夠給出一個(gè)全面的技術(shù)路線圖,來(lái)說(shuō)明 GPT-3.5 模型系列以及相關(guān)的大型語(yǔ)言模型是如何一步步進(jìn)化成目前的強(qiáng)大形態(tài)。作者希望這篇文章能夠促進(jìn)大型語(yǔ)言模型的透明度,成為開(kāi)源社區(qū)共同努力復(fù)現(xiàn) GPT-3.5 的路線圖。
鏈接:
https://mp.weixin.qq.com/s/dPpO18g3V4xqHUsEBKrXJQ
5.?狂攬兩千星,速度百倍提升,高性能Python編譯器Codon開(kāi)源
作為高性能 Python 編譯器,Codon 可將 Python 代碼編譯為本機(jī)機(jī)器代碼,而無(wú)需任何運(yùn)行時(shí)開(kāi)銷。在單線程上,Python 的典型加速大約為 10-100 倍或更多。Codon 的性能通常與 C/C++ 的性能相當(dāng)。與 Python 不同,Codon 支持本機(jī)多線程,這可以使速度提高很多倍。Codon 可通過(guò)插件基礎(chǔ)結(jié)構(gòu)進(jìn)行擴(kuò)展,它允許用戶合并新的庫(kù)、編譯器優(yōu)化甚至關(guān)鍵字。
Codon 框架是完全模塊化和可擴(kuò)展的,允許無(wú)縫集成新模塊、編譯器優(yōu)化、領(lǐng)域特定語(yǔ)言等,并積極為生物信息學(xué)和量化金融等多個(gè)領(lǐng)域開(kāi)發(fā)新的 Codon 擴(kuò)展。
鏈接:
https://mp.weixin.qq.com/s/p29go0yNMaWJfSxXRLGe9g
6.?xNN:支付寶端側(cè)深度學(xué)習(xí)框架
2017 年是支付寶第一次引入 AR 實(shí)景掃福,通過(guò)掃描任意“?!弊謳椭蠹胰ゼ占??。當(dāng)時(shí)的福字識(shí)別模型選擇服務(wù)端服務(wù)部署的技術(shù)方案,為了在活動(dòng)期間識(shí)別福字,需要調(diào)用大量的服務(wù)端部署資源來(lái)部署識(shí)別模型;另一方面,DL 在云端則意味著數(shù)據(jù)必須上傳。即使不考慮計(jì)算壓力,從網(wǎng)絡(luò)延時(shí)、流量、隱私保護(hù)等角度,也給用戶體驗(yàn)帶來(lái)種種限制。因此,對(duì)相當(dāng)多的應(yīng)用來(lái)說(shuō),DL 模型前移到移動(dòng)端部署可以看作是一種剛需。
鏈接:
https://mp.weixin.qq.com/s/ca4NvwJ9XSI2UCLvuONgWQ
7.?OneFlow源碼解析:自動(dòng)微分機(jī)制
深度學(xué)習(xí)框架一般通過(guò)自動(dòng)微分(autograd)機(jī)制計(jì)算梯度并反向傳播。本文嘗試通過(guò)一個(gè)簡(jiǎn)單的例子,粗淺地觀察一下OneFlow的autograd的實(shí)現(xiàn)機(jī)制。
鏈接:
https://mp.weixin.qq.com/s/EmDuuCXHe6-kXRk0MTaDJA
8.?CUDA筆記(一):解析OneFlow Element-Wise算子實(shí)現(xiàn)
Elemet-Wise算子指的是針對(duì)輸入Tensor進(jìn)行逐元素操作,比如ReLU就是針對(duì)輸入Tensor的每個(gè)值進(jìn)行判斷是否大于0,大于0的話輸出就是輸入否則就是0。
鏈接:
https://mp.weixin.qq.com/s/_pj-fa-SJ7cFdFaB9tYSWg
9.?Meta千億參數(shù)大模型OPT-IML「升級(jí)版」來(lái)了,完整模型和代碼公布
今年五月,MetaAI官宣發(fā)布了基于1750億參數(shù)的超大模型OPT-175B,還對(duì)所有社區(qū)免費(fèi)開(kāi)放。12月22日,該模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上線,Meta稱其「對(duì)2000個(gè)語(yǔ)言任務(wù)進(jìn)行了微調(diào),包含1750 億個(gè)參數(shù)」,還將為非商業(yè)研究用途免費(fèi)開(kāi)放。
鏈接:
https://mp.weixin.qq.com/s/LEcXYLjMxjN4MVDs8JP4xg
10.?一塊RTX 3090加速訓(xùn)練YOLOv5s,時(shí)間減少11個(gè)小時(shí),速度提升20%
憑借對(duì)YOLOv5的性能分析以及幾個(gè)簡(jiǎn)單的優(yōu)化,OneFlow團(tuán)隊(duì)將單RTX 3090 FP32 YOLOv5s的訓(xùn)練速度提升了近20%。對(duì)于需要迭代300個(gè)Epoch的COCO數(shù)據(jù)集來(lái)說(shuō),One-YOLOv5相比Ultralytics/YOLOv5縮短了11.35個(gè)小時(shí)的訓(xùn)練時(shí)間。本文將分享所有優(yōu)化技術(shù),如果你是一名PyTorch和OneFlow的使用者,尤其日常和檢測(cè)模型打交道但資源相對(duì)受限,那么本文的優(yōu)化方法將對(duì)你有所幫助。
鏈接:
https://mp.weixin.qq.com/s/LjbYGkjXgb5FkEn_cHXnpQ
11.?YOLOv5全面解析教程①:網(wǎng)絡(luò)結(jié)構(gòu)逐行代碼解讀
本教程也同樣適用于 Ultralytics/YOLOv5,因?yàn)?One-YOLOv5 僅僅是換了一個(gè)運(yùn)行時(shí)后端而已,計(jì)算邏輯和代碼相比 Ultralytics/YOLOv5 沒(méi)有做任何改變,歡迎 star 。
鏈接:
https://mp.weixin.qq.com/s/qfZIKgBdHNwPDp5ng0Y_Qw
12.?Stable Diffusion 2.0 相比 1.5 是倒退嗎?Prompt 實(shí)驗(yàn)給你真相
SD 2.0 在 Reddit 上招來(lái)群嘲,人們抱怨,SD 舊版本的 prompt,在 2.0 下不僅不再管用,甚至效果明顯有倒退,生物體結(jié)構(gòu)扭曲錯(cuò)亂,質(zhì)感奇怪。拿來(lái)跟討巧又低門檻的 Midjourney v4 一比較,簡(jiǎn)直是場(chǎng)噩夢(mèng)。
作者對(duì) SD2 的第一印象也跟社區(qū)差不多,不小的挫敗和失望。過(guò)去珍藏的prompt 跑完能看的不多。但拋棄舊思路,經(jīng)過(guò)幾組的 prompt 實(shí)驗(yàn)后,他又信心大振,發(fā)現(xiàn)了 Stable Diffusion 2.0 的很多亮點(diǎn)和優(yōu)勢(shì)。
鏈接:
https://mp.weixin.qq.com/s/oCzq8zwDnMNi-XdjJ5uZJA
13.?OneFormer:一個(gè)Transformer統(tǒng)治通用圖像分割
論文提出了OneFormer,這是第一個(gè)基于transformer的多任務(wù)通用圖像分割框架,該框架只需要使用單個(gè)通用架構(gòu)、單個(gè)模型和單個(gè)數(shù)據(jù)集進(jìn)行一次訓(xùn)練,就可以在語(yǔ)義、實(shí)例和全景分割任務(wù)上勝過(guò)現(xiàn)有框架,盡管后者需要使用多次資源在每個(gè)任務(wù)上單獨(dú)訓(xùn)練。
鏈接:
https://mp.weixin.qq.com/s/X1LwOipmq86C82F4m3la-Q
14.?Vision Transformer這兩年
在NLP領(lǐng)域取得巨大成功后,Transformer架構(gòu)在計(jì)算機(jī)視覺(jué)方面的作用日漸凸顯,成為越來(lái)越普遍的CV工具。自2020年10月Vision Transformer模型推出以來(lái),人們開(kāi)始高度關(guān)注Transformer模型在計(jì)算機(jī)視覺(jué)上的應(yīng)用。
恰逢Vision Transformer推出兩周年之際,借此機(jī)會(huì)我們對(duì)其稍作介紹,并討論這兩年來(lái)發(fā)展出的多種Vision Transformer模型變體以及Transformer在計(jì)算機(jī)視覺(jué)應(yīng)用方面面臨的各種挑戰(zhàn)。
鏈接:
https://mp.weixin.qq.com/s/GW3bbdVMY3MwFm8W-xpYdw
其他人都在看
ChatGPT進(jìn)化的秘密
李白:你的模型權(quán)重很不錯(cuò),可惜被我沒(méi)收了
單RTX 3090訓(xùn)練YOLOv5s,時(shí)間減少11小時(shí)
OpenAI掌門Sam Altman:AI下一個(gè)發(fā)展階段
對(duì)比四大深度學(xué)習(xí)框架,我發(fā)現(xiàn)都關(guān)注兩大問(wèn)題
比快更快,開(kāi)源Stable Diffusion刷新作圖速度
OneEmbedding:單卡訓(xùn)練TB級(jí)推薦模型不是夢(mèng)
關(guān)鍵詞: 前世今生