數(shù)據(jù)是人工智能技術(shù)發(fā)展的基礎(chǔ)燃料,可持續(xù)的高質(zhì)量數(shù)據(jù)集供給是人工智能發(fā)展的不竭動(dòng)力。大模型的精準(zhǔn)預(yù)測(cè)與泛化能力,離不開海量、多樣且標(biāo)注準(zhǔn)確的高質(zhì)量數(shù)據(jù)集。讓高質(zhì)量數(shù)據(jù)集“供得出”,解決AI模型的“數(shù)據(jù)不可見性陷阱”,需要?jiǎng)?chuàng)新數(shù)據(jù)工程提供堅(jiān)實(shí)支撐。
大模型時(shí)代,數(shù)據(jù)新特征帶來新挑戰(zhàn)
大模型時(shí)代,數(shù)據(jù)具有“大規(guī)模”、“多樣性”、“時(shí)效鮮活度”三大特征,對(duì)傳統(tǒng)IT數(shù)據(jù)資源治理與加工提出了巨大挑戰(zhàn):
大模型所需的訓(xùn)練語料規(guī)模接近參數(shù)規(guī)模的10-15倍,例如,市面上的主流基座模型在訓(xùn)練階段,都使用了經(jīng)過嚴(yán)格清洗、加工和標(biāo)注的約15萬億token,數(shù)據(jù)量達(dá)PB級(jí)別,包含大量的文本、圖像、音視頻等多模態(tài)數(shù)據(jù)。預(yù)處理、清洗、標(biāo)注全流程需要高性能計(jì)算、海量存儲(chǔ)空間以及高效的數(shù)據(jù)傳輸網(wǎng)絡(luò),傳統(tǒng)的人力流水線式的數(shù)據(jù)加工模式已經(jīng)無法滿足。
與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)集相比,多來源(網(wǎng)站&社交媒體、書籍、公文等)數(shù)據(jù)需要去除個(gè)人隱私、敏感信息、非法信息,確保數(shù)據(jù)的真實(shí)性和安全性;多格式(圖像、文本、音視頻)需要不同的加工技術(shù),例如自然語言處理技術(shù)、計(jì)算視覺處理技術(shù)等。傳統(tǒng)的IT化數(shù)據(jù)治理技術(shù)能力已經(jīng)無法滿足。
與傳統(tǒng)數(shù)據(jù)集的實(shí)時(shí)匯聚技術(shù)要求相比,語料的現(xiàn)實(shí)時(shí)效性是大模型高質(zhì)量的重要指標(biāo)之一,是否包含最新的表達(dá)詞匯、最熱點(diǎn)的話題、最新興的領(lǐng)域知識(shí),語料更新迭代周期將影響大模型質(zhì)量。傳統(tǒng)的IT數(shù)據(jù)時(shí)序管理模式已經(jīng)無法滿足。
創(chuàng)新數(shù)據(jù)工程,實(shí)現(xiàn)一站式數(shù)據(jù)高效供給
針對(duì)數(shù)據(jù)“大規(guī)模”、“多樣性”、“時(shí)效鮮活度”新特征,華為云Stack數(shù)智空間解決方案提供創(chuàng)新數(shù)據(jù)工程能力,圍繞數(shù)據(jù)獲取、加工、標(biāo)注、評(píng)估、發(fā)布、管理等全流程,以全模態(tài)數(shù)據(jù)獲取、智能數(shù)據(jù)加工、安全高效用數(shù)的關(guān)鍵能力,實(shí)現(xiàn)高質(zhì)量語料高效供給。
平臺(tái)支持文本、圖片、視頻、氣象、預(yù)測(cè)數(shù)據(jù)以及用戶自定義的其他類型數(shù)據(jù)從多渠道靈活導(dǎo)入,覆蓋文本、圖片、視頻、多模態(tài)音頻單多輪問答、視頻+caption等18+文件內(nèi)容格式,確保不同業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)獲取需求得到滿足。
平臺(tái)預(yù)置80+種清洗算子,實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取、過濾、轉(zhuǎn)換、打標(biāo)簽和評(píng)分等加工處理,并支持用戶創(chuàng)建自定義算子實(shí)現(xiàn)個(gè)性化的數(shù)據(jù)清洗訴求。結(jié)合高性能資源調(diào)度,實(shí)現(xiàn)數(shù)據(jù)清洗效率提升10倍、百萬級(jí)數(shù)據(jù)一周交付。
平臺(tái)支持20+預(yù)置合成指令和自定義的數(shù)據(jù)指令,對(duì)預(yù)訓(xùn)練文本、單多輪問答、單多輪問答(帶人設(shè))等數(shù)據(jù)集類型進(jìn)行處理,并根據(jù)設(shè)定的輪數(shù)生成新數(shù)據(jù)。通過數(shù)據(jù)合成技術(shù),可以生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),增強(qiáng)模型的泛化能力和性能。
平臺(tái)支持對(duì)支持NLP預(yù)訓(xùn)練/微調(diào)/強(qiáng)化學(xué)習(xí)等多場(chǎng)景和文本/圖片/音頻/視頻多模態(tài)標(biāo)注。同時(shí),平臺(tái)還提供團(tuán)隊(duì)標(biāo)注和文本、圖片的AI智能標(biāo)注,使標(biāo)注提效10倍。
平臺(tái)支持對(duì)處理后的文本、圖片、視頻等多種格式數(shù)據(jù),按3大類15指標(biāo)項(xiàng)100+個(gè)評(píng)估項(xiàng)的質(zhì)量標(biāo)準(zhǔn)進(jìn)行質(zhì)量評(píng)估,以輔助檢驗(yàn)數(shù)據(jù)的準(zhǔn)確性、完整性和一致性,確保數(shù)據(jù)在進(jìn)行模型訓(xùn)練前的高質(zhì)量標(biāo)準(zhǔn),保證模型在實(shí)際應(yīng)用中的可靠性和穩(wěn)定性。
平臺(tái)支持對(duì)文本、圖片類數(shù)據(jù)進(jìn)行數(shù)據(jù)配比,通過調(diào)整不同來源或類型數(shù)據(jù)的比例,確保模型能夠更全面地學(xué)習(xí)和理解數(shù)據(jù)的多樣性,提高模型的泛化能力和性能。
平臺(tái)支持NLP預(yù)訓(xùn)練文、NLP SFT數(shù)據(jù)集、圖片+標(biāo)注項(xiàng)、多模態(tài)圖片理解、再分析數(shù)據(jù)、時(shí)序預(yù)測(cè)數(shù)據(jù)、回歸分類數(shù)據(jù)等多種格式數(shù)據(jù)集按需發(fā)布,為后續(xù)模型訓(xùn)練提供高效的數(shù)據(jù)支持。同時(shí),支持膠囊數(shù)據(jù)發(fā)布和跨空間發(fā)布,實(shí)現(xiàn)數(shù)據(jù)可用不可得的安全性和靈活可控的發(fā)布范圍。
平臺(tái)支持?jǐn)?shù)據(jù)全鏈路血緣正逆向追溯,正向?qū)崿F(xiàn)數(shù)據(jù)集影響分析,逆向?qū)崿F(xiàn)快速問題追蹤,從而提升數(shù)據(jù)運(yùn)維和數(shù)據(jù)治理的效率。同時(shí),平臺(tái)還提供完善的標(biāo)簽體系和數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)資產(chǎn)管理能力,提升數(shù)據(jù)治理的效率和效果。
面向數(shù)據(jù)與AI產(chǎn)業(yè)協(xié)同發(fā)展新周期,華為云Stack融合“供得出、流得動(dòng)、用得好、保安全”四大核心能力及行業(yè)場(chǎng)景,推出數(shù)智空間解決方案,致力于成為數(shù)據(jù)空間信賴之選。

龍?zhí)锟萍荚品?wù)目錄
龍?zhí)锟萍甲鳛槿A為云總經(jīng)銷商,致力于為客戶構(gòu)建下一代ICT基礎(chǔ)設(shè)施、Cloud&AI技術(shù)中臺(tái),提供智能化全托管運(yùn)維和運(yùn)營服務(wù),開發(fā)現(xiàn)代化Cloud&AI原生應(yīng)用。未來,龍?zhí)锟萍紝⒊掷m(xù)攜手華為,助力更多客戶用好云、上好云。
注:本文素材來自華為云,版權(quán)歸作者所有
.png)