要多少數據才能訓練AI模型?拆解企業人工智慧專案為何難落地

Share on facebook
Share on twitter
Share on pinterest
Share on weibo

訓練一個AI數據模型,需要多少數據?

訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度 、 AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。

因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。

但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。

數據哪裡來?發展AI人工智慧之前,先建立數據流

很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。

AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。

發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。

AI模型訓練,記得校準商業目標

企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。

所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。

比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。

加快學術研究的人工智慧投入商業與政府應用

而為了協助更多學術研究的人工智慧技術能快速進入市場應用,NVIDIA此次提出的應用研究加速器計畫,則是可讓透過NVIDIA旗下GPU建置平台打造的人工智慧技術,能在更短時間內投入商業或政府應用環境。

在此項計畫中,將讓研究人員及合作組織能取得NVIDIA技術指導、硬體贊助、獎助金、應用支援、人工智慧訓練計畫,甚至包含各項建立人脈網路及行銷機會。同時,此項計畫初期會先聚焦在機器人與無人機應用領域,未來幾個月後則會接續加入資料科學應用、自然語言處理,以及包含語音識別與對話式人工智慧技術發展。

目前包含佛羅里達大學已經藉由Jetson平台,並且與Chemical Containers合作打可用於農業的造智慧噴灑器,而德國埃爾朗根紐倫堡大學則以Jetson平台打造倉庫自動化管理應用的無人機設備,另外麻省理工學院也同樣透過Jetson平台打造能以UV-C紫外線對物體表面進行消毒的應用設計。

※本文章屬於TNZE天擇集團所有嚴禁轉載※

Share on facebook
Share on twitter
Share on whatsapp
Share on weibo

相關內容

最新資訊