3月12日,華為公布了首個(gè)AI圖像生成模型PixArt-Σ的論文,克隆數(shù)字分身的D-IDAgent近期也爆紅,這些產(chǎn)品都拓寬了我們對(duì)AI的想象。華為實(shí)驗(yàn)團(tuán)隊(duì)在平臺(tái)上發(fā)布了多篇論文,展示了PixArt-Σ技術(shù),此外用戶只需要在D-IDAgent上傳一張照片就能生成AI數(shù)字人,這些高新技術(shù)實(shí)現(xiàn)了很多需求。
華為首個(gè) AI 圖像生成模型PixArt-Σ亮相
PixArt-Σ的前身是PixArt-α,相較之下PixArt-Σ的各個(gè)方面都有了很大的提升,包括數(shù)據(jù)質(zhì)量、圖像生成質(zhì)量、訓(xùn)練效率等,PixArt-Σ技術(shù)的參數(shù)規(guī)模是6億,通過這項(xiàng)技術(shù)嗯呢乖直接生成AI圖像,圖像的分辨率能達(dá)到4K。與此同時(shí),PixArt-Σ能將現(xiàn)有的文本優(yōu)化到圖像擴(kuò)散的模型當(dāng)中,在電影、游戲等行業(yè)能體現(xiàn)出更高質(zhì)量的視覺效果。
D-IDAgent能成功克隆自己的數(shù)字分身
D-ID平臺(tái)推出的D-IDAgent應(yīng)用近期受到大家的關(guān)注,在極短的時(shí)間內(nèi)火爆全網(wǎng),通過D-IDAgent能定制出自己的AI化身,簡單的操作能滿足用戶對(duì)生成AI效果的不同需求。生成的數(shù)字人可以進(jìn)行人性化的交互,數(shù)字人在接收到指令之后,能通過手勢、表情、語言等作出回應(yīng),豐富的使用場景讓這個(gè)程序應(yīng)用范圍特別廣泛,數(shù)字人可以進(jìn)行直播、代言、推廣等,直接用數(shù)字人來代替真人進(jìn)行拍攝,對(duì)于使用者而言能大大降低視頻的制作成本。
除了PixArt-Σ和D-IDAgent外,免費(fèi)的AI神器還有Chat Musician,能生成各種音樂,VSP-LLM能讀唇語,直接將視頻里人物的說話內(nèi)容識(shí)別翻譯出來,MIRAGE能幫助人們完成醫(yī)學(xué)問答,涵蓋醫(yī)學(xué)領(lǐng)域的很多知識(shí)和要點(diǎn),通過檢索就能找到答案,整體的準(zhǔn)確性很高。這幾個(gè)AI神器給我們的工作和生活都帶來無法想象的便捷,也讓我們看到了AI的神奇之處。