啟元“智能體訓(xùn)練云平臺”發(fā)布現(xiàn)場

繼AlphaGo之后,AI在世界人機(jī)大戰(zhàn)中再一次獲勝。

6月21日,在啟元世界舉辦的國內(nèi)首屆《星際AI頂級職業(yè)選手挑戰(zhàn)賽》中,啟元“AI星際指揮官”以2:0的成績戰(zhàn)勝《星際爭霸I/II》全國冠軍黃慧明(TooDming)和黃金總決賽冠軍、最強(qiáng)人族選手李培楠(Time)。

本次比賽是全國首次現(xiàn)場直播星際AI與人類頂級職業(yè)選手的對戰(zhàn)。

與圍棋相比,《星際爭霸》屬于不完全信息博弈,戰(zhàn)爭迷霧對AI的戰(zhàn)略規(guī)劃、布局、決策提出了更高的要求。而且在決策空間上,圍棋只有361種,星際2大約有1026。因此,更具挑戰(zhàn)性的《星際爭霸》成為了AI與人類較量的下一個競技場。

“星際指揮官”是什么?

據(jù)了解,“星際指揮官”是由啟元世界(北京)信息技術(shù)服務(wù)有限公司(以下簡稱:啟元世界)圍繞智能體訓(xùn)練云開展技術(shù)、研發(fā)型產(chǎn)品。

公開資料顯示,啟元世界成立于2017年,是一家認(rèn)知決策智能技術(shù)研發(fā)公司,基于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、超大規(guī)模并行計算等技術(shù),搭建了深度強(qiáng)化學(xué)習(xí)算法平臺,以在線游戲?yàn)閷?shí)驗(yàn)平臺,快速驗(yàn)證智能體算法,致力于打造決策智能、構(gòu)建平行世界、激發(fā)人類潛能。

2018年12月,啟元世界完成知名投資機(jī)構(gòu)Pre-A輪融資。目前,啟元“智能體訓(xùn)練云平臺”已在全國數(shù)十家商業(yè)組織和機(jī)構(gòu)進(jìn)行合作,其覆蓋了數(shù)字娛樂、公共科技、機(jī)器人等行業(yè)。

啟元世界創(chuàng)始人袁泉向鈦媒體表示,《星際爭霸》無論從戰(zhàn)斗、戰(zhàn)役、戰(zhàn)略經(jīng)濟(jì)等層面,都蘊(yùn)含了人類感知、認(rèn)知決策的訓(xùn)練環(huán)境,所以在公司成立的第一天他就確定以《星際爭霸》為研究環(huán)境,并且堅信它是孕育下一代新人工智能體非常好的訓(xùn)練平臺。

事實(shí)上,在此次比賽之前,自2018年在第38屆ACM全球總決賽亮相并發(fā)布AI人機(jī)協(xié)作挑戰(zhàn)賽以來,“星際指揮官”不斷收獲優(yōu)異成績:

2019年9月達(dá)到白金水平,3:0擊敗人類黃金級選手;2019年12月達(dá)到鉆石級水平,并在人工智能頂級峰會NeurlPS上現(xiàn)場展示。

究竟“星際指揮官”與圍棋有何不同,啟元世界CTO龍海濤從博弈和決策空間的角度作出了解釋,“從博弈的角度來看,圍棋是一個完全信息的博弈,棋子之中黑子、白子都可以看到;而《星際爭霸》則屬于非完全信息博弈,像猜拳一樣,人類選手需要不停地猜測對方在干什么,下一步動作是什么。”

龍海濤介紹,從決策空間來看,圍棋是回合制,在19乘19的格子之中,每次決策在361個點(diǎn)進(jìn)行選擇動作;《星際爭霸》則是有決策主體、決策目標(biāo),每分鐘的決策次數(shù)在300-400次頻率,整個空間加起來有10的26次方,這是每次AI作決策可能性的來源,而且要做兩千、三千次決策,才有可能戰(zhàn)勝頂級的人類選手,這是對AI訓(xùn)練的巨大考驗(yàn)。

啟元世界也在從工程和算法兩個層面各進(jìn)行了深層次的優(yōu)化,通過乘數(shù)效應(yīng)的疊加最終實(shí)現(xiàn)了看似不可能的“奇跡”。

七步打造智能體訓(xùn)練云

袁泉透露,《星際爭霸》僅僅是智能體訓(xùn)練云的一塊“試驗(yàn)田”,啟元世界的目標(biāo)是通過智能體訓(xùn)練云平臺幫助各行各業(yè)訓(xùn)練出自己的智能體,助力產(chǎn)業(yè)升級。

智能體訓(xùn)練云平臺會提供方便的編程接口,供智能體開發(fā)人員調(diào)用高效的算法庫、網(wǎng)絡(luò)模型庫及訓(xùn)練方法,快速開發(fā)構(gòu)建自己的智能體。同時,平臺還會根據(jù)訓(xùn)練任務(wù)進(jìn)行彈性算力調(diào)度,匹配智能體的推演和訓(xùn)練速度,實(shí)現(xiàn)高效率的超大規(guī)模并行訓(xùn)練。

袁泉講述了七步打造智能體訓(xùn)練云路徑:

第一步,環(huán)境配置。構(gòu)建智能體訓(xùn)練環(huán)境,無論是《星際爭霸》、數(shù)字孿生環(huán)境、仿真環(huán)境等,讓AI智能體在環(huán)境中不斷探索、交互。

第二步,智能體設(shè)計。平臺將提供編程接口,供開發(fā)人員調(diào)用底層數(shù)十個算法庫、網(wǎng)絡(luò)模型庫以及智能體的訓(xùn)練方法,快速開發(fā)構(gòu)建自己的智能體。

第三步,算力調(diào)度。主要是針對大規(guī)模協(xié)作的時候,比如某一個特定的任務(wù)到底需要分配多少CPU、GPU、大內(nèi)存,甚至是萬兆通信網(wǎng)絡(luò)這些資源,能夠更好地適應(yīng)任務(wù)訓(xùn)練自己的智能體。

第四步,自我對抗學(xué)習(xí)。將配置好的智能體進(jìn)行對抗學(xué)習(xí)和演練,就像“星際指揮官”一樣,在對戰(zhàn)場景下不斷試錯、學(xué)習(xí)和自我迭代,不斷調(diào)整最優(yōu)對策。

第五步,對抗樣本。支持?jǐn)?shù)百個實(shí)體單元的大規(guī)模并行對抗訓(xùn)練,可解決10的26次方復(fù)雜動作空間決策問題,達(dá)到甚至超過人類高手水平。

第六步,智能體模型。隨著訓(xùn)練時間的增長包括平臺提供穩(wěn)定訓(xùn)練的特性,能夠幫助大家發(fā)掘到最優(yōu)的智能體策略。

第七步,評估部署。將最終訓(xùn)練好的智能體接入仿真推演環(huán)境,讓智能體背后的AI系統(tǒng)進(jìn)行各種環(huán)境應(yīng)對策略決策。

按照袁泉的規(guī)劃,啟元世界將致力于把智能體帶入每個行業(yè)、每個家庭、每個人,提升產(chǎn)業(yè)效能和生活體驗(yàn),為公共科技、數(shù)字娛樂、電力能源、交通物流等行業(yè)提供基于平臺產(chǎn)品的人工智能解決方案。(本文首發(fā)鈦媒體,作者/郭虹妘,編輯/蔡鵬程)

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

07:16

特朗普稱將在“兩到三周”內(nèi)結(jié)束伊朗戰(zhàn)事

07:13

美股收評:納指大漲3.8%,科技股反彈,英偉達(dá)、博通、谷歌漲超5%

07:01

伊朗總統(tǒng):伊方愿在訴求滿足前提下結(jié)束戰(zhàn)爭

2026-03-31 22:59

靖因藥業(yè)遞表港交所

2026-03-31 22:54

Snap股價漲10%

2026-03-31 22:53

振江股份:擬定增募資不超10億元

2026-03-31 22:49

康美藥業(yè):擬1元轉(zhuǎn)讓全資子公司股權(quán)及相關(guān)資產(chǎn)

2026-03-31 22:49

伊朗稱將打擊中東地區(qū)與美高科技公司有關(guān)的企業(yè),包括蘋果、谷歌、特斯拉、微軟等公司

2026-03-31 22:39

LME倫銅漲1.0%,報12346.11美元/噸

2026-03-31 22:32

美股光通信、存儲板塊走高,閃迪漲超5.4%

2026-03-31 22:29

美股鋁業(yè)股續(xù)漲,世紀(jì)鋁業(yè)大漲超13%

2026-03-31 22:26

國家數(shù)據(jù)局:完善低空算力供給體系,加強(qiáng)低空領(lǐng)域算法研發(fā)

2026-03-31 22:20

國內(nèi)貴金屬期貨夜盤走高

2026-03-31 22:17

國家數(shù)據(jù)局:要加強(qiáng)低空數(shù)據(jù)資源體系建設(shè),擴(kuò)大公共數(shù)據(jù)資源供給

2026-03-31 22:14

奇瑞重啟 QQ 產(chǎn)品線:全新QQ3上市,起售價5.89萬元起

2026-03-31 22:11

TOP TOY國際集團(tuán)有限公司遞表港交所

2026-03-31 22:07

焦點(diǎn)國際有限公司遞表港交所

2026-03-31 22:04

現(xiàn)貨白銀日內(nèi)漲幅擴(kuò)大至5%,報73.64美元/盎司

2026-03-31 22:02

美國2月份的招聘人數(shù)降至480萬,創(chuàng)2020年4月來新低

2026-03-31 22:01

美國3月消費(fèi)者信心指數(shù)91.8,預(yù)期87.9

1

掃描下載App