中國兩大科技巨頭阿里巴巴和字節(jié)跳動今日分別發(fā)布了各自最新的AI圖像生成模型——字節(jié)跳動發(fā)布了主打智能理解和高分辨率輸出的Seedream 5.0 Preview,阿里巴巴則推出了集圖像生成與編輯于一體的Qwen-Image-2.0。
這兩款模型中,阿里巴巴通過阿里云百煉平臺開放API邀測,用戶可通過Qwen Chat免費體驗;字節(jié)跳動Seedream 5.0 Preview 目前則剛剛在即夢、小云雀等平臺開啟內(nèi)測。
阿里巴巴Qwen-Image-2.0的核心創(chuàng)新在于首次將圖像生成與編輯功能統(tǒng)一到單一模型架構(gòu)中,顯著提升了性能和靈活性。該模型支持長達(dá)1000 token的復(fù)雜文本輸入,能夠生成高達(dá)2K分辨率的圖像,適合專業(yè)PPT、海報、多格漫畫等復(fù)雜場景。
Qwen-Image-2.0尤其在中文文字渲染方面表現(xiàn)卓越,能夠準(zhǔn)確生成多種字體和復(fù)雜文本內(nèi)容,如《蘭亭集序》全文配圖。AI Arena評測數(shù)據(jù)顯示,Qwen-Image-2.0在文本生成圖像任務(wù)中以1029分位列全球第三,圖像編輯能力得分1034,排名第二,接近頂尖水平。
相比之下,字節(jié)跳動的Seedream 5.0 Preview 則支持2K及4K分辨率輸出,強(qiáng)調(diào)智能水平的提升,增強(qiáng)了對提示詞的理解能力,支持檢索生圖、多步邏輯推理和聯(lián)網(wǎng)知識整合,適合復(fù)雜知識驅(qū)動的任務(wù),如生成詳細(xì)步驟說明圖。
從技術(shù)參數(shù)來看,Qwen-Image-2.0的長文本輸入能力(1K token)遠(yuǎn)超行業(yè)平均,極大拓展了模型對復(fù)雜指令的理解和執(zhí)行能力,尤其適合需要精細(xì)文字排版和多元素組合的專業(yè)應(yīng)用。Seedream 5.0 Preview 則通過多步邏輯推理和聯(lián)網(wǎng)知識整合,提升了模型對復(fù)雜任務(wù)的適應(yīng)性,尤其在生成步驟說明圖等知識密集型場景中表現(xiàn)優(yōu)異。
在使用體驗方面,Qwen-Image-2.0通過阿里云百煉平臺和Qwen Chat提供開放體驗,用戶反饋其生成圖像細(xì)膩,文字渲染精準(zhǔn),編輯功能靈活多樣,能夠?qū)崿F(xiàn)九宮格自拍、多風(fēng)格轉(zhuǎn)換等多樣化創(chuàng)作。
Seedream 5.0 Preview則依托字節(jié)跳動生態(tài),預(yù)計將會深度整合進(jìn)剪映、CapCut等視頻及內(nèi)容創(chuàng)作工具,用戶可便捷調(diào)用模型完成高質(zhì)量圖像生成和精準(zhǔn)編輯,尤其適合內(nèi)容創(chuàng)作者和知識工作者。
兩款模型的發(fā)布反映了中國AI圖像生成領(lǐng)域的多元化發(fā)展趨勢。阿里巴巴側(cè)重于模型架構(gòu)的統(tǒng)一與性能提升,強(qiáng)調(diào)中文文字渲染和多場景應(yīng)用,推動AI圖像生成的實用化和普及化。字節(jié)跳動則聚焦智能理解和知識驅(qū)動,強(qiáng)化模型的推理能力和高分辨率輸出,滿足更復(fù)雜的專業(yè)需求和內(nèi)容創(chuàng)作場景。
未來,隨著AI圖像生成技術(shù)的不斷演進(jìn),模型的多模態(tài)融合能力、長文本理解深度以及高分辨率細(xì)節(jié)表現(xiàn)將成為競爭關(guān)鍵。
阿里巴巴和字節(jié)跳動的這兩款模型分別代表了不同的技術(shù)路線和市場策略,預(yù)計將在專業(yè)設(shè)計、內(nèi)容創(chuàng)作、教育培訓(xùn)等多個領(lǐng)域展開激烈競爭。同時,隨著API和應(yīng)用的開放,更多開發(fā)者和用戶將參與到AI圖像生成生態(tài)中,推動技術(shù)的快速迭代和應(yīng)用創(chuàng)新。
(本文首發(fā)鈦媒體App , 作者|AGI-Signal,編輯|秦聰慧)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論