Project Astra 記住了一閃而過(guò)的眼鏡|圖片來(lái)源:谷歌

Project Astra 關(guān)于視覺(jué)的處理甚至算整場(chǎng)發(fā)布會(huì)最大的亮點(diǎn)?!改阌浀梦野蜒劬Ψ拍牧藛幔俊埂改愕难坨R在桌子上的紅蘋(píng)果旁邊。」Project Astra 甚至通過(guò)鏡頭記住了一閃而過(guò)的眼鏡,并準(zhǔn)確回答出在蘋(píng)果旁。這里可能夾帶了一點(diǎn)「私貨」,這副眼鏡上或許也有 Project Astra。

從演示看,Project Astra 可以很快處理收到的信息,可以通過(guò)連續(xù)編碼視頻幀并將視頻和語(yǔ)音組合成事件時(shí)間線來(lái)做到這一點(diǎn),然后緩存信息以供回憶。谷歌表示,其中一些功能將在今年晚些時(shí)候添加到 Gemini 應(yīng)用程序和其他產(chǎn)品中。

Project Astra 給這個(gè)樂(lè)隊(duì)起名為金色條紋|圖片來(lái)源:谷歌

谷歌稱 DeepMind 團(tuán)隊(duì)還在研究如何最好地將多模態(tài)模型整合在一起,以及如何平衡超大型通用模型與更小、更集中的模型。

昨天剛發(fā)布 GPT-4o 的 OpenAI 最重大的突破也在多模態(tài)上,看下來(lái)似乎昨日重現(xiàn)。最大的一個(gè)區(qū)別在視覺(jué)處理上,是目前 GPT-4o 只能處理靜態(tài)圖像,Astra 已經(jīng)可以處理視頻。

Project Astra 背后的 Gemini 系列大模型能力也有更新。上個(gè)月舉辦的 Google Cloud Next 2024 大會(huì)上發(fā)布,發(fā)布的 Gemini 1.5 Pro,具有原生音頻理解、系統(tǒng)指令、JSON 模式等,可提供 100 萬(wàn)長(zhǎng)文本能力,宣布已經(jīng)向全球開(kāi)發(fā)者開(kāi)放。

這次宣布推出的 Gemini 1.5 Flash 模型,解決了關(guān)鍵的成本問(wèn)題。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,主要面向開(kāi)發(fā)者。會(huì)上詳細(xì)介紹了 Gemini 1.5 Pro 和 Flash 的定價(jià)。Gemini 1.5 Flash 的價(jià)格定為每 100 萬(wàn)個(gè) token 35 美分,這比 GPT-4o 的每 100 萬(wàn)個(gè) token 5 美元的價(jià)格要便宜得多。

Gemini 1.5 Flash|圖片來(lái)源:極客公園

谷歌還預(yù)告了接下來(lái)的動(dòng)作,宣布今年晚些時(shí)候?qū)⒛P偷默F(xiàn)有上下文窗口增加一倍,達(dá)到 200 萬(wàn)個(gè) token。這將使其能夠同時(shí)處理 2 小時(shí)的視頻、22 小時(shí)的音頻、超過(guò) 60,000 行代碼或超過(guò) 140 萬(wàn)個(gè)單詞。

Gemini 1.5 Pro |圖片來(lái)源:極客公園

谷歌去年 12 月發(fā)布的一個(gè)預(yù)錄演示遭到「造假」質(zhì)疑,通過(guò)剪輯誤導(dǎo)人們高估 Gemini 的視頻處理能力,不過(guò)現(xiàn)在,這些能力都是真的了。

基于大模型的 AI 應(yīng)用生態(tài)方面的進(jìn)展

在這次 I/O 大會(huì)上,谷歌基于大模型的 AI 應(yīng)用生態(tài)也有所升級(jí),涵蓋搜索、照片、創(chuàng)作、工具以及工作應(yīng)用等方方面面。

搜索是谷歌 25 年前的創(chuàng)世產(chǎn)品。在一年前,谷歌表示,搜索的未來(lái)是 AI?,F(xiàn)在,谷歌搜索中的 AI 真的來(lái)了,主打一個(gè)——「讓谷歌幫你谷歌。」

谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在 I/O 大會(huì)上宣布,人工智能生成的搜索摘要,現(xiàn)在被稱為「人工智能概述」,將在「本周」向美國(guó)的所有人推出,更多國(guó)家/地區(qū)即將推出。

相比從前,AI 搜索可以處理更復(fù)雜的問(wèn)題。谷歌提供了一個(gè)例子,也許用戶在尋找一個(gè)新的瑜伽工作室,要求這個(gè)工作室既要在當(dāng)?shù)睾苁軞g迎,也要方便通勤,還要有折扣,只需一次搜索就能實(shí)現(xiàn)。

另外,用戶還可以調(diào)整已經(jīng)生成的 AI 摘要,或者選擇簡(jiǎn)化版本,或者選擇查看更多細(xì)節(jié)。

這一切是谷歌通過(guò)定制的 Gemini 模型來(lái)實(shí)現(xiàn)的,其將多步推理、規(guī)劃和多模態(tài)與搜索系統(tǒng)結(jié)合,總結(jié)網(wǎng)絡(luò)內(nèi)容并展示答案,據(jù)稱還是 AI 來(lái)設(shè)計(jì)和填充結(jié)果頁(yè)面。

但一個(gè)問(wèn)題是,如果是 AI 為用戶捕獲搜索結(jié)果,谷歌的競(jìng)價(jià)廣告業(yè)務(wù)往哪放?

據(jù)谷歌高管稱,與傳統(tǒng)查詢出的網(wǎng)頁(yè)列表相比,AI 摘要中包含的鏈接會(huì)獲得更多點(diǎn)擊?!概c以往一樣,廣告將繼續(xù)出現(xiàn)在頁(yè)面的專用位置上,并通過(guò)清晰的標(biāo)簽區(qū)分有機(jī)結(jié)果和贊助結(jié)果?!?/p>

除了提問(wèn),谷歌 AI 搜索還能制定計(jì)劃,從飲食到旅行計(jì)劃,比如搜索「創(chuàng)建一個(gè)容易準(zhǔn)備的團(tuán)體 3 天飲食計(jì)劃」,AI 就會(huì)定制計(jì)劃,然后用戶可以將某份晚餐調(diào)整成素食,隨后導(dǎo)出到文檔或者谷歌郵箱里。

搜索還不僅僅是文本框中的文字,谷歌的視覺(jué)搜索也進(jìn)化了,可以用視頻提問(wèn)。比如,用戶有臺(tái)二手唱片機(jī),上面帶針的金屬部件漂移了,不知道怎么回事,可以直接用視頻搜索,即能得到有解決步驟的 AI 摘要和相關(guān)鏈接,省去描述問(wèn)題所需要的正確術(shù)語(yǔ)的時(shí)間和麻煩。

使用谷歌 AI 搜索,直接制定飲食計(jì)劃 |圖片來(lái)源:谷歌

谷歌照片應(yīng)用也將進(jìn)化。桑達(dá)爾·皮查伊在演示中稱,9 年前他們推出了這個(gè)應(yīng)用,現(xiàn)在每天有超過(guò) 60 億張照片和視頻被上傳到這里。

該應(yīng)用在未來(lái)幾個(gè)月將推出「詢問(wèn)照片(Ask Photos)」功能,也是基于 Gemini 模型,可以讓用戶以自然語(yǔ)言搜索照片和視頻中的人物、寵物、地點(diǎn)等,它能理解照片的上下文和主題,找到特定的回憶信息,無(wú)需滑動(dòng)屏幕。

例如,「向我展示我參觀過(guò)的每個(gè)國(guó)家公園的最好看的照片」「去年我在哪里露營(yíng)?」「我的優(yōu)惠券什么時(shí)候到期?」「露西婭什么時(shí)候?qū)W會(huì)游泳的?」「顯示露西婭的游泳進(jìn)步情況」「莉娜的生日派對(duì)是什么主題?」最后,它還能撰寫(xiě)旅行亮點(diǎn)或者個(gè)性化的標(biāo)題,供用戶在社交媒體上分享。

谷歌還稱,「除非在極少數(shù)情況下是為了解決虐待或傷害問(wèn)題,我們不會(huì)使用這些個(gè)人數(shù)據(jù)訓(xùn)練 Google Photos 之外的任何生成式 AI 產(chǎn)品,包括其他 Gemini 模型和產(chǎn)品?!?/p>

使用詢問(wèn)照片功能,詢問(wèn)生日派對(duì)細(xì)節(jié)|圖片來(lái)源:谷歌

在創(chuàng)作工具方面,谷歌在 I/O 大會(huì)上還推出了 AI 生成視頻的工具 VideoFX,并更新了 AI 圖像和 AI 音樂(lè)創(chuàng)作工具 ImageFX 和 MusicFX。

VideoFX 可以讓電影制作人編寫(xiě)提示來(lái)構(gòu)建電影鏡頭,ImageFX 添加了圖像編輯控件,而 MusicFX 出了一個(gè)新的 DJ 模式。

其中,新工具 VideoFX 由 Veo 提供動(dòng)力,Veo 是谷歌 DeepMind 最強(qiáng)的生成式視頻模型。這個(gè)新工具配備了一個(gè)故事板模式,可以逐個(gè)場(chǎng)景地進(jìn)行迭代,并向最終視頻添加音樂(lè)。

據(jù)谷歌高管稱,Veo 能理解「延時(shí)拍攝」等電影術(shù)語(yǔ),可以生成各種電影和視覺(jué)風(fēng)格的 1080p 分辨率視頻,時(shí)間還可以超過(guò)一分鐘。Veo 將通過(guò)候補(bǔ)名單提供預(yù)覽版。

另外值得注意的是,VideoFX、ImageFX 和 MusicFX 生成的所有內(nèi)容都被數(shù)字水印 SynthID 標(biāo)記,主要是為了防止 AI 內(nèi)容濫用和虛假信息傳播問(wèn)題。

使用谷歌 AI 生成視頻工具 VideoFX |圖片來(lái)源:谷歌

除了創(chuàng)作工具,谷歌日常工作應(yīng)用的進(jìn)化也值得關(guān)注。包括 Gmail 郵箱、日歷、文檔、表格、幻燈片、云端硬盤(pán)等在內(nèi)谷歌 Workspace 應(yīng)用,將引入最新的 AI 模型 Gemini 1.5 Pro,位于側(cè)邊欄,作為一個(gè)虛擬助手。

當(dāng)用戶點(diǎn)擊側(cè)邊欄的 Gemini 圖標(biāo)時(shí),Gmail 中的 Gemini 將提供「總結(jié)此電子郵件」「列出下一步操作」「建議回復(fù)」等選項(xiàng)。用戶可以讓它總結(jié)小孩學(xué)校的郵件,獲得需要行動(dòng)的信息,起草回復(fù)。

Gmail 側(cè)面板中的 Gemini 總結(jié)電子郵件 |圖片來(lái)源:谷歌

另外,在昨天 OpenAI 發(fā)布的 GPT-4o 演示中,其中有個(gè)教育場(chǎng)景,GPT-4o 直接化身家教,逐步教一個(gè)青少年解決幾何數(shù)學(xué)問(wèn)題。

谷歌也宣布推出 LearnLM,這是一組基于 Gemini 的微調(diào)模型,專為學(xué)習(xí)教育而設(shè)計(jì),同時(shí)演示了一些在搜索、YouTube 應(yīng)用上的 AI 教育學(xué)習(xí)場(chǎng)景。

比如,在 YouTube 上,用戶可以在觀看視頻時(shí)提問(wèn),也可以針對(duì)視頻提后續(xù)問(wèn)題。在 Android 上,可以用畫(huà)圈搜索(Circle to Search)嘗試解決數(shù)學(xué)和物理題目里的特定困難。

針對(duì) YouTube 學(xué)習(xí)視頻進(jìn)行提問(wèn) |圖片來(lái)源:谷歌

在這場(chǎng) AI 公司的軍備競(jìng)賽中,谷歌追趕 OpenAI 的其中一大優(yōu)勢(shì)「老本」,在于其掌握手機(jī)安卓系統(tǒng),以及龐大的應(yīng)用生態(tài)。

但當(dāng)生成式 AI 真的全方位進(jìn)入谷歌的生態(tài)應(yīng)用,直接接管搜索,幫人回憶過(guò)去,制定出行計(jì)劃,取代真人家教等等,其準(zhǔn)確性是否真的可靠?我們拭目以待。

本文系作者 極客公園GeekPark 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

09:17

人民幣兌美元中間價(jià)報(bào)6.9141,下調(diào)85點(diǎn)

09:15

日本政府通過(guò)2026財(cái)年臨時(shí)預(yù)算案

09:10

“無(wú)人機(jī)動(dòng)力系統(tǒng)第一股”即將上市,三瑞智能正式開(kāi)啟創(chuàng)業(yè)板網(wǎng)上申購(gòu)

09:03

美國(guó)法院駁回社媒公司X指控樂(lè)高、瑪氏等品牌“非法抵制”的訴訟

09:01

國(guó)內(nèi)商品期貨開(kāi)盤(pán),滬銀跌超5%

09:00

富時(shí)中國(guó)A50指數(shù)期貨在上一交易日夜盤(pán)收跌0.08%的基礎(chǔ)上低開(kāi),現(xiàn)跌0.19%

08:54

林俊旸離職后首發(fā)長(zhǎng)文,預(yù)測(cè)“智能體式思考”將成為主流

08:53

兩市融資余額減少8.64億元

08:36

報(bào)道稱美國(guó)防部考慮向中東增派1萬(wàn)人地面部隊(duì)

08:35

KKR出售數(shù)據(jù)中心冷卻業(yè)務(wù),交易價(jià)值47.5億美元

08:34

中信證券:2026年油運(yùn)企業(yè)利潤(rùn)有望創(chuàng)新高

08:34

美聯(lián)儲(chǔ)理事米蘭:資產(chǎn)負(fù)債表縮減或需耗時(shí)數(shù)年

08:33

人工智能公司Anthropic考慮最早10月IPO

08:25

馬斯克據(jù)稱擬將30%的SpaceX新股分配給散戶,打破美股IPO分配散戶5%-10%股份的慣例

08:16

中信證券:3月版號(hào)發(fā)放穩(wěn)定,游戲類型日趨多元

08:15

現(xiàn)貨白銀向上觸及69美元/盎司

08:09

3月27日A股盤(pán)前要聞

08:05

理想汽車已開(kāi)啟股票回購(gòu)計(jì)劃,知情人士:并非“首日就要集中完成”

08:03

韓國(guó)KOSPI指數(shù)跌幅擴(kuò)大至3%

08:02

WTI原油期貨日內(nèi)下跌1.6%,最新報(bào)92.968美元/桶

掃描下載App