近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了全新的AI模型GPT-4o,這一重大突破被譽(yù)為“一夜改變?nèi)藱C(jī)交互歷史”。GPT-4o不僅支持語音聊天,還能進(jìn)行實(shí)時(shí)視頻交互,其絲滑程度堪比真人交互。這一技術(shù)的問世,無疑將為人工智能領(lǐng)域帶來新的發(fā)展機(jī)遇。

OpenAI的野心

OpenAI的旗艦產(chǎn)品ChatGPT雖然能理解自然語言并回答用戶的問題,但由于其“預(yù)訓(xùn)練”的原理,無法即時(shí)搜索內(nèi)容。此外,大語言模型的生成機(jī)制也使得ChatGPT無法完全規(guī)避“一本正經(jīng)地胡說八道”的現(xiàn)象。因此,人們想要了解最新的實(shí)時(shí)內(nèi)容,仍然需要求助于搜索引擎。

傳統(tǒng)搜索引擎基于關(guān)鍵詞匹配,即根據(jù)用戶輸入的關(guān)鍵詞識(shí)別檢索范圍,并匹配可能符合用戶意圖的海量信息。然而,傳統(tǒng)搜索的痛點(diǎn)在于不同來源的海量信息帶來的大量冗余和信息不一致,這也導(dǎo)致搜出來的信息一大堆,但找不到有用的東西。

OpenAI顯然希望成為人類和數(shù)據(jù)的重要連接點(diǎn),僅靠ChatGPT(哪怕是再聰明的GPT)也只能滿足一部分需求,推出搜索引擎勢(shì)在必行。目前,業(yè)內(nèi)最為關(guān)注的是OpenAI的搜索引擎將會(huì)是一個(gè)什么樣的形態(tài),以及它是否真能撼動(dòng)Google一家獨(dú)大固化已久的搜索市場(chǎng)生態(tài)。

在OpenAI之前,美國(guó)已經(jīng)有一款生成式搜索引擎Perplexity。成立于2022年的Perplexity是一家位于美國(guó)硅谷的創(chuàng)業(yè)公司,該公司專注于利用人工智能技術(shù)開發(fā)生成式搜索引擎,為搜索查詢提供直接答案,而不是提供網(wǎng)站鏈接列表。PerplexityAI會(huì)在提供的答案中整合視頻、圖像等,有時(shí)還會(huì)直接提供鏈接資源。Perplexity受到包括英偉達(dá)CEO黃仁勛等人的喜歡,成立一年半MAU達(dá)到1000萬。

那么,OpenAI的搜索引擎會(huì)與PerplexityAI類似,還是會(huì)帶來更多驚喜?我們還需要等待OpenAI的最終揭曉。

GPT-4o不僅是完全免費(fèi)的,而且覆蓋了桌面與移動(dòng)App,性能大幅提升,可以綜合處理文本、圖片和音頻,人機(jī)交互更加自然簡(jiǎn)單。例如,可以讓GPT-4o加入網(wǎng)絡(luò)會(huì)議,為用戶記錄發(fā)言總結(jié)概要。

GPT-4o具體有什么用?用戶可以讓GPT-4o處理眼前的問題,極大提升生產(chǎn)力,可以與AI實(shí)時(shí)語音對(duì)話,就像是與真人聊天一樣自然流暢。AI處理反應(yīng)已經(jīng)達(dá)到人類的速度,甚至還可以理解用戶的情緒,以相應(yīng)的情感作出回應(yīng)。

搶微軟的風(fēng)頭

面對(duì)OpenAI的故意撞車和搶占風(fēng)頭,谷歌在今天的I/O大會(huì)上又拿出了怎樣的AI產(chǎn)品,是否帶來了足夠的震撼與新意?

谷歌I/O開發(fā)者大會(huì)今年已經(jīng)進(jìn)入了第16個(gè)年頭,AI早已成為I/O大會(huì)的絕對(duì)乃至唯一的主角。谷歌CEO皮查伊更是在結(jié)束時(shí)宣布,整場(chǎng)發(fā)布會(huì)一共說了121次AI,引發(fā)了全場(chǎng)大笑。雖然整場(chǎng)發(fā)布會(huì)都沒有提及競(jìng)爭(zhēng)對(duì)手,但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實(shí)力,宣布谷歌已經(jīng)全面進(jìn)入Gemini時(shí)代。他強(qiáng)調(diào)谷歌已經(jīng)在AI領(lǐng)域投入了十多年時(shí)間,貫穿了AI的每一層:研究、產(chǎn)品、基礎(chǔ)設(shè)施。

雖然AI新貴OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢(shì),但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢(shì),這也是OpenAI必須與微軟結(jié)盟的直接原因,因?yàn)閮杉夜径疾豢赡軉为?dú)與谷歌抗衡。

皮查伊還宣布,Gemini大模型已經(jīng)覆蓋了谷歌全平臺(tái)的20億用戶產(chǎn)品,僅僅三個(gè)月時(shí)間就有100多萬用戶注冊(cè)使用。而兩個(gè)月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過150萬開發(fā)者的使用。

在性能方面,谷歌就是AI業(yè)界的滅霸。Gemini 1.5 Pro此前直接將Token(上下文處理)性能提升到了百萬級(jí)別,全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個(gè)月后,谷歌在今天宣布改進(jìn)版的Gemini 1.5 Pro全面開放給Gemini Advanced的用戶,并且支持35種語言。

更為殘暴的是,谷歌還將Gemini 1.5 Pro的上下文窗口處理性能直接翻倍到了200萬(暫時(shí)只面向開發(fā)者提供),在這方面OpenAI只能望塵莫及。皮查伊宣布,這是朝著無限上下文的最終目標(biāo)邁出的重要一步。

Gemini 1.5 Pro可以給用戶帶來怎樣的實(shí)際體驗(yàn)?谷歌用Workspace辦公組件展示了AI給生產(chǎn)力帶來的巨大變化。舉例來說,如果是通過Google Meets進(jìn)行遠(yuǎn)程會(huì)議,哪怕用戶無法參會(huì),也可以讓Gemini為自己錄音并列出會(huì)議紀(jì)要。

有了Gemini,Gmail郵箱就有了靈魂。代寫郵件已經(jīng)是基本操作了。用戶可以讓Gemini幫助自己整理和總結(jié)Gmail的海量郵件,根據(jù)最近的收據(jù)和信用卡賬單郵件整理歸納出用戶的消費(fèi)支出,給出一份專業(yè)又具體的財(cái)務(wù)支出清單。

給AI裝上眼睛嘴巴

周鴻祎指出,據(jù)OpenAI發(fā)布會(huì)上簡(jiǎn)短的技術(shù)原理介紹,區(qū)別于傳統(tǒng)將把語音先翻譯成文字處理后再翻譯成語音的做法,這次的技術(shù)是直接把語音進(jìn)行了處理,形成了一個(gè)整合的大模型引擎,實(shí)現(xiàn)對(duì)語音輸入的直接理解——包括把語音中飽含的情緒、感情、語調(diào)、口音這些細(xì)節(jié)都進(jìn)行了理解,同時(shí)是直接輸出語音。

“這就帶來了一個(gè)全新的體驗(yàn),就是時(shí)延大概只有300毫秒左右,達(dá)到了人類和人類談話的響應(yīng)速度,這樣不僅能聽得懂你話里的情緒,在輸出回答的時(shí)候也可以伴隨著高興、悲傷、失望、興奮或者是更復(fù)雜的感情。”周鴻祎表示。

周鴻祎還指出,除了語音處理層面帶來的驚艷之外,有一個(gè)容易被忽視的地方是,實(shí)際上GPT-4o的還可以直接打開手機(jī)攝像頭,直接通過手機(jī)攝像頭賦予它更強(qiáng)大的眼著的能力。這個(gè)可能還比不上Sora,但是它比GPT-4.5的版本可以輸入圖片輸入表格的能力又提升了一步。“所以總結(jié)來講就是,GPT-4.0相當(dāng)于給人工智能賦予了對(duì)知識(shí)理解的能力,相當(dāng)于有了一個(gè)大腦,然后GPT-4.5相當(dāng)于給了一些初級(jí)的看見的能力,而GPT-4o實(shí)際上是給它增加了真正能看懂這個(gè)世界的眼睛,和能聽明白人說話的耳朵,而且嘴巴還能夠自由自在地表達(dá)自己情緒和情感的能力。”。

在周鴻祎看來,有些人會(huì)對(duì)此次發(fā)布OpeanAI沒有推出GPT-5.0覺得比較失望,但是通向通用人工智能不僅是要在超級(jí)的推理能力、知識(shí)能力、邏輯能力上要趕超人類,更重要的能力還包括跟人交互的能力。所以,當(dāng)AI能通過無論是手機(jī)攝像頭還是無處不在的物聯(lián)網(wǎng)攝像頭更看明白這個(gè)世界,而且能以跟人一樣的響應(yīng)速度進(jìn)行交互的時(shí)候,這件事就變得非??膳铝?,“也就是它就讓人工智能真正的更像人了”。

總結(jié)來說,人工智能技術(shù)的發(fā)展日新月異,每一次技術(shù)的突破都為我們帶來了新的驚喜。OpenAI發(fā)布的全新AI模型GPT-4o以及谷歌在I/O大會(huì)上展示的Gemini 1.5 Pro都是人工智能領(lǐng)域的重要突破。這些技術(shù)的問世,無疑將為人工智能領(lǐng)域帶來新的發(fā)展機(jī)遇,也將為我們的生活帶來更多便利。然而,我們也應(yīng)看到,人工智能技術(shù)的發(fā)展還面臨著許多挑戰(zhàn),如如何保證人工智能的安全性、如何避免人工智能的濫用等。這些問題需要我們?cè)诎l(fā)展人工智能的同時(shí),不斷進(jìn)行思考和探索。