首頁(yè)
黨政
要聞
觀點(diǎn)
互動(dòng)
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陜
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網(wǎng)站
舉報(bào)專(zhuān)區(qū)
登錄

退出

人民網(wǎng)+
中國(guó)共產(chǎn)黨新聞網(wǎng)
領(lǐng)導(dǎo)留言板
強(qiáng)國(guó)論壇
人民視頻

只需一段提示文本，就能生成60秒連貫性視頻——

Sora火了，通用人工智能要來(lái)了？

2024年02月27日09:03 | 來(lái)源：科技日?qǐng)?bào)

小字號(hào)

原標(biāo)題：Sora火了，通用人工智能要來(lái)了？

　　圖為Sora生成的視頻截圖。

　　【AI世界】

　　◎本報(bào)記者崔爽

　　2024年開(kāi)年，Sora的橫空出世，給AI界投下一枚重磅炸彈。

　　這個(gè)由美國(guó)人工智能公司OpenAI發(fā)布的文生視頻模型，只需要一段提示文本，就能生成具有多個(gè)角色和特定動(dòng)作類(lèi)型，且主題和背景基本準(zhǔn)確的高清視頻。相較于Runway Gen 2、Pika等AI視頻生成應(yīng)用幾秒鐘連貫性的視頻產(chǎn)出，Sora可生成長(zhǎng)達(dá)60秒的連續(xù)、穩(wěn)定、高品質(zhì)視頻，且提示文本越充分、細(xì)節(jié)越精確，生成的視頻越真實(shí)。

　　不過(guò)，出于可能被濫用的擔(dān)憂(yōu)，OpenAI表示目前并沒(méi)有公開(kāi)發(fā)布Sora的計(jì)劃。模型有限的訪(fǎng)問(wèn)權(quán)限只被授予小部分研究人員和創(chuàng)意人士等群體，以便OpenAI獲取他們的使用反饋。

　　目前，官網(wǎng)上已更新了48個(gè)Sora生成的演示視頻。這些視頻清晰且真實(shí)的細(xì)節(jié)和超高的精度不禁引發(fā)人們思考：這是否意味著具備人類(lèi)同等智能或超越人類(lèi)智能的通用人工智能（AGI）的到來(lái)？

　　對(duì)研究AGI意義重大

　　Sora問(wèn)世后，360集團(tuán)創(chuàng)始人周鴻祎發(fā)表了看法：Sora的出現(xiàn)讓AGI到來(lái)的時(shí)間提前了。原來(lái)估計(jì)需要十來(lái)年，現(xiàn)在可能只要兩三年。他認(rèn)為，Sora雖然看起來(lái)只是個(gè)文生視頻工具，但實(shí)際上是AI認(rèn)知世界并與之進(jìn)行交互的里程碑，會(huì)給整個(gè)產(chǎn)業(yè)帶來(lái)巨大進(jìn)步。

　　“實(shí)現(xiàn)AGI的技術(shù)路線(xiàn)多樣，涉及不同的研究方法和應(yīng)用方向。”中國(guó)科學(xué)院自動(dòng)化研究所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋向科技日?qǐng)?bào)記者介紹，目前，學(xué)術(shù)界和工業(yè)界廣泛討論的AGI技術(shù)路線(xiàn)主要有三條。一是信息智能，即“大數(shù)據(jù)+自監(jiān)督學(xué)習(xí)+大算力”。這種方法依賴(lài)大量數(shù)據(jù)，通過(guò)自監(jiān)督學(xué)習(xí)算法來(lái)訓(xùn)練模型，同時(shí)需要巨大的計(jì)算能力來(lái)處理復(fù)雜任務(wù)。二是博弈智能。這種技術(shù)路線(xiàn)強(qiáng)調(diào)在人機(jī)交互中通過(guò)強(qiáng)化學(xué)習(xí)的方式訓(xùn)練智能體，使其能進(jìn)行自主學(xué)習(xí)和決策。三是類(lèi)腦智能。這種方法試圖通過(guò)模仿人腦的運(yùn)行方式實(shí)現(xiàn)AGI。

　　在王金橋看來(lái)，根據(jù)官網(wǎng)的演示視頻，Sora至少在畫(huà)質(zhì)、長(zhǎng)視頻生成、多鏡頭一致性、學(xué)習(xí)世界規(guī)律、多模態(tài)融合等方面實(shí)現(xiàn)突破。

　　“Sora能引發(fā)如此轟動(dòng)，并不只是因?yàn)樗傻囊曨l時(shí)間更長(zhǎng)、清晰度更高，而是因?yàn)樗茉谝欢ǔ潭壬夏M物理世界中的物體運(yùn)動(dòng)和交互。”王金橋說(shuō)，“這種能力對(duì)于AGI的研究具有重要意義，因?yàn)樗婕皺C(jī)器對(duì)現(xiàn)實(shí)世界的深入理解和高度模擬，而這些是實(shí)現(xiàn)AGI的核心挑戰(zhàn)。”

　　記者了解到，為了準(zhǔn)確模擬物理世界，Sora被投喂了極大規(guī)模的訓(xùn)練數(shù)據(jù)，并使用了擴(kuò)散模型等先進(jìn)的算法。“對(duì)于AGI而言，Sora讓大家看到，規(guī)模效應(yīng)不只在文字模態(tài)上成立，在視頻模態(tài)上也成立。”北京月之暗面科技有限公司（Moonshot AI）聯(lián)合創(chuàng)始人周昕宇認(rèn)為，“通過(guò)擴(kuò)展視頻生成模型可以建立通用物理世界模擬器。這是實(shí)現(xiàn)AGI的必要過(guò)程。”

　　距真正實(shí)現(xiàn)AGI仍有距離

　　雖然進(jìn)步顯著、令人驚艷，但Sora仍然存在一些技術(shù)缺陷。

　　從目前Sora生成的視頻來(lái)看，它在處理某些細(xì)節(jié)時(shí)可能會(huì)出錯(cuò)，例如混淆物體的左右方向。同時(shí)，它也無(wú)法完全理解復(fù)雜的因果關(guān)系，或在長(zhǎng)時(shí)間跨度內(nèi)保持故事線(xiàn)的高度一致連貫。這些技術(shù)缺陷導(dǎo)致生成的視頻內(nèi)容可能出現(xiàn)與邏輯錯(cuò)誤，或與常識(shí)、真實(shí)情形不符的情況。

　　“Sora模擬真實(shí)物理世界的方式，是通過(guò)對(duì)給定的文字、圖像、參考視頻進(jìn)行建模，然后預(yù)測(cè)想要生成的視頻數(shù)據(jù)的條件概率分布。這與語(yǔ)言模型的原理沒(méi)有本質(zhì)區(qū)別，同樣是在做無(wú)損壓縮。”周昕宇說(shuō)，“只要壓縮得足夠好，就可以模擬出足夠真實(shí)的物理世界。”

　　王金橋強(qiáng)調(diào)，盡管Sora能夠通過(guò)學(xué)習(xí)了解表層的運(yùn)動(dòng)和交互關(guān)系，但是還沒(méi)有學(xué)習(xí)到物理規(guī)律的本質(zhì)。比如，它不知道多大的風(fēng)能吹滅蠟燭，不了解玻璃掉到地上會(huì)碎、掉到地毯上不會(huì)碎的本質(zhì)原因。這也是Sora目前最為人詬病之處。

　　“從Sora為數(shù)不多的公開(kāi)資料來(lái)看，它仍是數(shù)據(jù)驅(qū)動(dòng)下的擬合，也就是模擬人類(lèi)所能看到的物理世界。但真實(shí)的物理世界遠(yuǎn)不僅包含人類(lèi)視覺(jué)信息。”北京中關(guān)村科金技術(shù)有限公司技術(shù)副總裁張杰認(rèn)為，Sora的創(chuàng)意來(lái)自大數(shù)據(jù)量下的概率擬合，它并沒(méi)有產(chǎn)生新知識(shí)，距離“深度模擬真實(shí)物理世界”這一目標(biāo)還有很長(zhǎng)的路要走。

　　中國(guó)社會(huì)科學(xué)院哲學(xué)研究所科技哲學(xué)研究室主任、研究員段偉文同樣表達(dá)了審慎的觀點(diǎn)。“Sora這種近乎人類(lèi)的表達(dá)實(shí)際上是一種基于現(xiàn)有數(shù)據(jù)和語(yǔ)料的合成智能。”他說(shuō)，“它給實(shí)現(xiàn)AGI找到了一種可行的路徑，但距真正的AGI還有很長(zhǎng)的距離，且對(duì)實(shí)現(xiàn)AGI的價(jià)值相對(duì)有限。”

　　事實(shí)上，實(shí)現(xiàn)AGI這一目標(biāo)可謂道阻且長(zhǎng)。王金橋談到了幾大挑戰(zhàn)。首先是數(shù)據(jù)瓶頸。盡管像GPT-4這樣的預(yù)訓(xùn)練語(yǔ)言模型在數(shù)據(jù)標(biāo)注上取得了進(jìn)展，但數(shù)據(jù)依然是深度學(xué)習(xí)中的一個(gè)關(guān)鍵限制因素；其次是泛化瓶頸。目前的AI系統(tǒng)往往在特定任務(wù)上表現(xiàn)出色，但在面對(duì)新任務(wù)時(shí)難以有效適應(yīng)；最后是能耗瓶頸。隨著AI模型變得越來(lái)越復(fù)雜，所需的計(jì)算資源和能源消耗也越來(lái)越大。這對(duì)硬件設(shè)備提出了更高要求。

　　或?qū)⒙氏嚷涞貍髅筋I(lǐng)域

　　Sora的發(fā)布不僅推動(dòng)了技術(shù)的發(fā)展，也引發(fā)了對(duì)AI治理和倫理的探討。

　　段偉文提到，OpenAI采取了相關(guān)手段來(lái)阻止不當(dāng)視頻的發(fā)布。王金橋進(jìn)一步解釋道， Sora內(nèi)置的文本提示過(guò)濾器可篩選發(fā)送給模型的所有提示，阻止對(duì)暴力、色情內(nèi)容、仇恨言論以及名人肖像等敏感或不適當(dāng)內(nèi)容的請(qǐng)求。視頻內(nèi)容過(guò)濾器能檢查生成的視頻幀，屏蔽違反OpenAI安全政策的內(nèi)容。

　　另外，OpenAI團(tuán)隊(duì)可能會(huì)定期對(duì)Sora進(jìn)行優(yōu)化和更新，以改進(jìn)其過(guò)濾機(jī)制，確保模型能夠更好地識(shí)別和處理敏感內(nèi)容。同時(shí)，團(tuán)隊(duì)可能會(huì)監(jiān)控系統(tǒng)的使用情況，以便及時(shí)發(fā)現(xiàn)并解決新出現(xiàn)的問(wèn)題。

　　“從技術(shù)上看，Sora避免極端暴力、色情、名人肖像等內(nèi)容出現(xiàn)的方式，主要依靠的是模型的對(duì)齊能力。”周昕宇說(shuō)，“這一點(diǎn)和語(yǔ)言模型的區(qū)別不大，也已經(jīng)有比較多的實(shí)踐經(jīng)驗(yàn)。”

　　據(jù)國(guó)際數(shù)據(jù)公司預(yù)測(cè)，Sora將率先在短視頻、廣告、互動(dòng)娛樂(lè)、影視制作和媒體等傳媒領(lǐng)域得到應(yīng)用。Sora的諸多能力，可以輔助這些領(lǐng)域的工作者更高效地進(jìn)行視頻創(chuàng)作，加快生產(chǎn)速度，提高產(chǎn)出數(shù)量。這將助力相關(guān)行業(yè)降低成本、提升效率，進(jìn)一步優(yōu)化用戶(hù)體驗(yàn)。

(責(zé)編：羅知之、陳鍵)

關(guān)注公眾號(hào)：人民網(wǎng)財(cái)經(jīng)

分享讓更多人看到

无码熟妇人妻av在线影片,欧美成人精品视频在线播放,free性欧美69巨大,最新欧美精品一区二区三区

人民日?qǐng)?bào)報(bào)系

旗下網(wǎng)站

創(chuàng)新服務(wù)平臺(tái)

只需一段提示文本，就能生成60秒連貫性視頻——

Sora火了，通用人工智能要來(lái)了？

推薦閱讀

客戶(hù)端下載

熱門(mén)排行