圖片來源@pixabay

大模型的生產(chǎn)需要數(shù)據(jù)底座的支撐,因為只有高質量、高密度的數(shù)據(jù)去訓練模型,才有可能得到更精準的生成效果。就當前而言,訓練一個500T參數(shù)的模型,使用的訓練數(shù)據(jù)已經(jīng)達到16.6PB,如果一本書按500KB算,相當于332億本的數(shù)據(jù)量。這是什么概念?好比說現(xiàn)存每個人類擁有4本書的量級。

但問題是,使用大量互聯(lián)網(wǎng)上公開數(shù)據(jù)集,僅在數(shù)據(jù)清洗環(huán)節(jié)就提出極大挑戰(zhàn),被精煉的高質量數(shù)據(jù)正如石油一樣,非常珍貴。鈦媒體APP注意到,目前不少模型提供方,已經(jīng)在特定領域使用合成數(shù)據(jù)用于模型訓練,其原理是希望能夠基于大模型自動生成高質量數(shù)據(jù)集。而這只是一方面。

目前數(shù)據(jù)量的暴漲,還要求使用各種技術手段實現(xiàn)數(shù)據(jù)的預訓練和微調,數(shù)據(jù)智能應用場景下,對大數(shù)據(jù)平臺的管理水平和安全能力要求提升,這對于基于云服務應用的企業(yè)而言,挑戰(zhàn)的復雜性會更為明顯。

在媒體溝通會上,亞馬遜云科技探討了數(shù)據(jù)在生成式AI時代的重要性及挑戰(zhàn),從三個層面分析企業(yè)想要構建數(shù)據(jù)底座,可參考的解決方案和路徑。鈦媒體摘錄了一些關鍵要點,如下:

  1. 企業(yè)構建數(shù)據(jù)底座過程中,往往會通過三類方式進行基礎模型的數(shù)據(jù)定制,以適應不同應用場景,分別是:檢索增強生成(Retrieval-Augmented Generation,RAG)、微調和持續(xù)預訓練。
  2. RAG、微調和持續(xù)預訓練需要的數(shù)據(jù)規(guī)模、數(shù)據(jù)來源和技術要求各不相同。例如,RAG需要GB級企業(yè)數(shù)據(jù),微調需要GB級人工標的高質量數(shù)據(jù),持續(xù)預訓練則需要TB級未標的原始數(shù)據(jù)。RAG的數(shù)據(jù)來源是企業(yè)內部文檔庫、數(shù)據(jù)庫、數(shù)據(jù)倉庫、知識圖譜;微調數(shù)據(jù)來源為私域知識;持續(xù)預訓練數(shù)據(jù)來源為公開的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù)。
  3. 企業(yè)構建數(shù)據(jù)底座面臨三類挑戰(zhàn):一是在模型微調和預訓練階段,將海量原始數(shù)據(jù)轉化為高質量的大數(shù)據(jù)集,對存儲、清洗、治理的挑戰(zhàn);二是快速獲取專有數(shù)據(jù)的挑戰(zhàn);三是基礎模型頻繁調用將會導致成本的增加和響應的延遲的挑戰(zhàn)。
  4. 企業(yè)構建數(shù)據(jù)底座也應從上述三類挑戰(zhàn)入手:一是找到合適的存儲來承載海量數(shù)據(jù);清洗加工原始數(shù)據(jù)為高質量數(shù)據(jù)集;對整個組織內數(shù)據(jù)的發(fā)現(xiàn)編目治理;二是利用RAG將專有數(shù)據(jù)提供給基礎模型;三是通過將之前問答生成的新數(shù)據(jù)存入緩存,從而在面對類似問題時,可以不調用模型,而直接通過緩存給出回答,這不但能夠減少模型調用,還可以節(jié)約成本。

  圖片來源@亞馬遜云科技

亞馬遜云科技大中華區(qū)數(shù)據(jù)分析與生成式AI產(chǎn)品總監(jiān)崔瑋在交流中告訴鈦媒體APP,從前端模型的使用來看,Amazon Bedrock提供了一個平臺開放給客戶,讓客戶自己選擇適合自身業(yè)務場景的模型。同樣在后端,無論是數(shù)據(jù)分析工具,還是數(shù)據(jù)庫,都是希望通過提供一套最合適的產(chǎn)品和服務,讓用戶在任何一個應用,任何一個數(shù)據(jù)存儲的環(huán)境,都可以通過向量化能力,對接到企業(yè)客戶的不同業(yè)務場景中。

在數(shù)據(jù)存儲方面,擴展性和響應速度是關鍵。Amazon S3對象存儲,支持廣泛的數(shù)據(jù)協(xié)議,應對各種數(shù)據(jù)類型,還支持智能分層以降低訓練成本。Amazon FSx for Lustre文件存儲服務,提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務。Amazon EMR serverless采用無服務器架構,幫助企業(yè)運行任何規(guī)模的分析工作負載,自動擴展功能可在幾秒鐘內調整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個簡單可擴展的無服務器數(shù)據(jù)集成服務,可快速完成微調或預訓練模型的數(shù)據(jù)準備工作。

在數(shù)據(jù)治理方面,企業(yè)難以在多個賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠為多源多模態(tài)數(shù)據(jù)進行有效編目和治理,還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺和工具。

利用RAG技術將專有數(shù)據(jù)提供給基礎模型。將向量搜索的支持功能加入到主流的數(shù)據(jù)服務中,通過將數(shù)據(jù)和向量存儲在一起來提升數(shù)據(jù)查詢性能。Amazon Neptune圖數(shù)據(jù)庫推出分析數(shù)據(jù)庫引擎,以結合圖數(shù)據(jù)庫與大模型的優(yōu)勢,從而能夠快速從圖形數(shù)據(jù)中獲取洞察,并進行更快的向量搜索。

在提升模型調用效率方面。Amazon Memory DB內存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù),實現(xiàn)對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。此外,亞馬遜云科技還將無服務器數(shù)據(jù)庫服務和Amazon OpenSearch Serverless用于向量搜索。

正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所言,“企業(yè)需要的是懂業(yè)務、懂用戶的生成式AI應用,而打造這樣的應用需要從數(shù)據(jù)做起。”

例如,北京靈奧科技是一家大模型中間件領域創(chuàng)企。在此之前,北京靈奧科技就已經(jīng)將整個平臺搭建在亞馬遜科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎云服務和數(shù)據(jù)存儲產(chǎn)品,以及基于Amazon Bedrock提供的Claude模型,用于構建Vanus平臺的AI Agent助手。

  圖片來源@靈奧科技

在服務一家南美州服飾類電商企業(yè)的過程中,Vanus為Shopify電商客戶構建了客服類Agent VanChat。數(shù)據(jù)顯示,通過VanChat提供的用戶意圖識別、產(chǎn)品推薦等功能加速用戶產(chǎn)品購買,提升網(wǎng)站的銷售額。VanChat為該客戶帶來快速的營收增長,僅上線首月ROI高達611%。 

從最近的動作來看,擅長從客戶需求視角倒推產(chǎn)品,亞馬遜云科技已將上述提及的能力抽象為部分產(chǎn)品方案開放出來。(本文首發(fā)于鈦媒體APP, 作者|楊麗,編輯 | 蓋虹達)  

本文系作者 TechHorizon 授權鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容

快報

更多

18:31

俄羅斯央行將基準利率下調至15.00%,預估為15.00%

18:25

弘信電子:控股子公司燧弘華創(chuàng)擬引入2億元戰(zhàn)略投資

18:24

沈陽:3月15日起夫妻雙方繳存住房公積金的,最高貸款額度由85萬元調整為150萬元

18:15

美國國債跌勢擴大,2年期收益率上漲10個基點至3.89%

18:14

美股期指跌幅擴大,道瓊斯指數(shù)期貨跌0.61%

18:10

海上絲路指數(shù):本周航線運價走勢分化,綜合指數(shù)保持穩(wěn)定

18:09

上交所:本周對中韓半導體ETF等溢價較高的基金,以及*ST熊貓、*ST正平等異常波動退市風險警示股票進行重點監(jiān)控

18:08

交易員已完全預期歐洲央行今年將加息三次

18:07

美國10年期國債收益率突破4.3%,日內上行逾4bp,現(xiàn)報4.301%

18:03

飛捷科思再獲近億元融資,加速物理AI基建落地

17:59

途虎養(yǎng)車2025年營收同比增11.5%

17:56

北京:鼓勵本市CCUS企業(yè)在津冀區(qū)域火電、鋼鐵、化工、石化、水泥等重點行業(yè)建設大規(guī)模、全流程示范應用工程

17:55

北京:加大CCUS關鍵核心技術研發(fā)攻關

17:49

南向資金今日凈賣出約210億港元,創(chuàng)近兩周單日賣出新高

17:45

上期所調整石油瀝青、丁二烯橡膠品種套保持倉額度自動轉化標準

17:43

央行:境內企業(yè)境外放款宏觀審慎調節(jié)系數(shù)由0.5上調至0.6,整體提高境外放款余額上限

17:39

美元/日元上漲0.6%至158.68,周跌幅收窄至0.7%

17:39

宇樹科技2025年度實現(xiàn)營業(yè)收入17.08億元,同比增長335.36%

17:37

兩部門:境內企業(yè)境外放款余額上限與其所有者權益掛鉤

17:35

中國人民銀行:放款人境外放款余額不得超過其境外放款余額上限

掃描下載App