圖片來源@pixabay
大模型的生產(chǎn)需要數(shù)據(jù)底座的支撐,因為只有高質量、高密度的數(shù)據(jù)去訓練模型,才有可能得到更精準的生成效果。就當前而言,訓練一個500T參數(shù)的模型,使用的訓練數(shù)據(jù)已經(jīng)達到16.6PB,如果一本書按500KB算,相當于332億本的數(shù)據(jù)量。這是什么概念?好比說現(xiàn)存每個人類擁有4本書的量級。
但問題是,使用大量互聯(lián)網(wǎng)上公開數(shù)據(jù)集,僅在數(shù)據(jù)清洗環(huán)節(jié)就提出極大挑戰(zhàn),被精煉的高質量數(shù)據(jù)正如石油一樣,非常珍貴。鈦媒體APP注意到,目前不少模型提供方,已經(jīng)在特定領域使用合成數(shù)據(jù)用于模型訓練,其原理是希望能夠基于大模型自動生成高質量數(shù)據(jù)集。而這只是一方面。
目前數(shù)據(jù)量的暴漲,還要求使用各種技術手段實現(xiàn)數(shù)據(jù)的預訓練和微調,數(shù)據(jù)智能應用場景下,對大數(shù)據(jù)平臺的管理水平和安全能力要求提升,這對于基于云服務應用的企業(yè)而言,挑戰(zhàn)的復雜性會更為明顯。
在媒體溝通會上,亞馬遜云科技探討了數(shù)據(jù)在生成式AI時代的重要性及挑戰(zhàn),從三個層面分析企業(yè)想要構建數(shù)據(jù)底座,可參考的解決方案和路徑。鈦媒體摘錄了一些關鍵要點,如下:
![]()
圖片來源@亞馬遜云科技
亞馬遜云科技大中華區(qū)數(shù)據(jù)分析與生成式AI產(chǎn)品總監(jiān)崔瑋在交流中告訴鈦媒體APP,從前端模型的使用來看,Amazon Bedrock提供了一個平臺開放給客戶,讓客戶自己選擇適合自身業(yè)務場景的模型。同樣在后端,無論是數(shù)據(jù)分析工具,還是數(shù)據(jù)庫,都是希望通過提供一套最合適的產(chǎn)品和服務,讓用戶在任何一個應用,任何一個數(shù)據(jù)存儲的環(huán)境,都可以通過向量化能力,對接到企業(yè)客戶的不同業(yè)務場景中。
在數(shù)據(jù)存儲方面,擴展性和響應速度是關鍵。Amazon S3對象存儲,支持廣泛的數(shù)據(jù)協(xié)議,應對各種數(shù)據(jù)類型,還支持智能分層以降低訓練成本。Amazon FSx for Lustre文件存儲服務,提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進一步加快模型優(yōu)化的速度。
在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務。Amazon EMR serverless采用無服務器架構,幫助企業(yè)運行任何規(guī)模的分析工作負載,自動擴展功能可在幾秒鐘內調整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個簡單可擴展的無服務器數(shù)據(jù)集成服務,可快速完成微調或預訓練模型的數(shù)據(jù)準備工作。
在數(shù)據(jù)治理方面,企業(yè)難以在多個賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠為多源多模態(tài)數(shù)據(jù)進行有效編目和治理,還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺和工具。
利用RAG技術將專有數(shù)據(jù)提供給基礎模型。將向量搜索的支持功能加入到主流的數(shù)據(jù)服務中,通過將數(shù)據(jù)和向量存儲在一起來提升數(shù)據(jù)查詢性能。Amazon Neptune圖數(shù)據(jù)庫推出分析數(shù)據(jù)庫引擎,以結合圖數(shù)據(jù)庫與大模型的優(yōu)勢,從而能夠快速從圖形數(shù)據(jù)中獲取洞察,并進行更快的向量搜索。
在提升模型調用效率方面。Amazon Memory DB內存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù),實現(xiàn)對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。此外,亞馬遜云科技還將無服務器數(shù)據(jù)庫服務和Amazon OpenSearch Serverless用于向量搜索。
正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所言,“企業(yè)需要的是懂業(yè)務、懂用戶的生成式AI應用,而打造這樣的應用需要從數(shù)據(jù)做起。”
例如,北京靈奧科技是一家大模型中間件領域創(chuàng)企。在此之前,北京靈奧科技就已經(jīng)將整個平臺搭建在亞馬遜科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎云服務和數(shù)據(jù)存儲產(chǎn)品,以及基于Amazon Bedrock提供的Claude模型,用于構建Vanus平臺的AI Agent助手。
![]()
圖片來源@靈奧科技
在服務一家南美州服飾類電商企業(yè)的過程中,Vanus為Shopify電商客戶構建了客服類Agent VanChat。數(shù)據(jù)顯示,通過VanChat提供的用戶意圖識別、產(chǎn)品推薦等功能加速用戶產(chǎn)品購買,提升網(wǎng)站的銷售額。VanChat為該客戶帶來快速的營收增長,僅上線首月ROI高達611%。
從最近的動作來看,擅長從客戶需求視角倒推產(chǎn)品,亞馬遜云科技已將上述提及的能力抽象為部分產(chǎn)品方案開放出來。(本文首發(fā)于鈦媒體APP, 作者|楊麗,編輯 | 蓋虹達)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論