【談股市】從Deepseek論蒸餾法以探討Unity Vector

 



在過年時,一個中國AI模型Deepseek問世,號稱可以省下很多算力資源,自此至今,市場都在嚷嚷叫著輝達做這麼多晶片都是多餘的,讓輝達的股價直直落,直到今天還創過年以來的新低,不過我今天不是要來談輝達,也不是要談Deepseek,是要跟各位分享,讓Deepseek這種號稱可以節省算力資源問世的「蒸餾法」。並且探討今年Unity宣稱下半年推出的AI平台Unity Vector到底是不是真材實料。

所謂的「蒸餾法」,在AI或機器學習的領域裡,簡單來說就是一種把「大模型」的知識「濃縮」到「小模型」的方法。想像一下,你有一個很厲害的老師(大模型),它懂得很多東西,但它太大、太複雜,跑起來很慢、很耗資源。然後你有一個學生(小模型),它比較簡單、輕量,但一開始沒那麼聰明。蒸餾法就像是讓老師把自己的知識「教」給學生,讓學生學會老師的本事,但還是保持輕巧、好用。

到這裡你就會看到老師花了大半輩子的時間(大算力)學習知識,學生只要幾堂課的時間(小算力)就能夠吸收同樣的知識,這就是為什麼Deepseek號稱可以比ChatGPT省很多算力資源的原因。

那具體上蒸餾法怎麼做呢?通常是讓大模型先去看一堆資料,生成一些預測或答案(比如說分類、翻譯之類的),然後把這些結果(或者是它內部的思考方式)拿來訓練小模型。小模型不用從頭學起,而是直接模仿大模型的行為,這樣就能在少用資源的情況下,達到差不多的效果。

用白話比喻,就像把一鍋濃湯熬成一小罐精華醬,味道差不多,但用起來更方便!DeepSeek如果用了這種方法,就是想讓他們的AI變得更高效,跑得更快、省電省力,還能裝進更多地方用。

鴻海劉揚偉董事長在過年後的開工典禮指出:「DS出來之後的好處是,以前是偷偷摸摸做,現在DS可以做了,我們也可以做,沒有強大算力的公司,都可以做模型了,尤其是邊緣AI,如何把模型做得很小,做得很有效能,這會帶動邊緣AI蓬勃發展,帶動整體算力需求。」

蒸餾法對於中小企業來說確實是一個很實用的方法,尤其是在想快速進入AI產業的時候。原因很簡單:開發一個超大的AI模型(像那些頂尖公司用的)需要大量數據、計算資源和專業團隊,這對中小企業來說成本太高、時間也拖不起。而蒸餾法可以讓他們利用現成的大模型(比如公開的或商業授權的模型),把知識轉移到一個小模型上,這樣就能在有限的資源下快速打造出自己的AI產品或服務。比如說,做個客服聊天機器人、圖片辨識工具之類的,都可以用這種方式加速開發。

針對蒸餾法的合法性問題,劉揚偉說,「已經在研究其作法,如何使用模型運用在公司上,至於合作還沒有考慮,其實,DeepSeek這套方法,包括學界與小IC公司都在使用,因為這套蒸餾法可能不合法,但是大家都在搞,都在做。」

這就得看具體情況了,蒸餾法本身是一個技術手段,技術沒什麼「違法」可言,但怎麼用可能會碰到法律或倫理的邊界。以下是幾個關鍵點:

  • 模型來源和版權:如果你用的是別人開發的大模型(比如某家公司或研究機構的),得看它有沒有開放使用權限。有的模型是免費公開的(像某些學術模型),但有的有商業限制。如果沒取得授權就拿來蒸餾,可能侵犯智慧財產權。
  • 數據使用:蒸餾過程中需要數據來訓練。如果這些數據是從別的地方抓來的(比如用戶資料、網路上爬的內容),但沒得到許可,就可能違反隱私法規(像GDPR或台灣的個資法)。
  • 商業競爭:如果蒸餾出來的模型跟原模型功能太像,還拿去賣,可能被原開發者告「不正當競爭」或抄襲。不過這通常得看合約條款或當地法律怎麼判。
  • 公開案例:像DeepSeek這種公司,如果他們用蒸餾法,通常會自己先訓練一個大模型,再蒸餾成小的,這樣就沒啥法律問題,因為知識是自己的。如果他們拿別人的模型來蒸餾,那就得有合法授權才行。
總之,蒸餾法對中小企業是個超實用的捷徑,只要來源合法、使用合規,完全沒問題,還能省錢省力,快速上線!

蒸餾法其實不算什麼新奇技術,它在機器學習領域裡已經存在好一段時間了。最早可以追溯到2000年代中期,特別是在統計學習和模型壓縮的研究中就有類似概念。不過,真正讓「蒸餾法」這個詞火起來,還是在2015年左右,當時Google的研究團隊(包括Geoffrey Hinton,這位是深度學習的大神級人物)發表了一篇論文《Distilling the Knowledge in a Neural Network》,正式把這個方法推廣開來。他們當時是想解決怎麼把大規模神經網路的知識轉移到小模型,讓它們更實用。


接著就來看Unity最近的公開資料號稱一個 AI 驅動的廣告平台-Unity Vector ,這個平台主要目標是提升他們在移動廣告市場的競爭力,尤其是針對用戶獲取(User Acquisition, UA)和廣告投放的精準性。

然而,Unity並非像OpenAI專職於AI演算法的企業,所以Unity使用蒸餾法開發AI模型的可能性?



雖然 Unity 沒明確說 Vector 是使用了蒸餾法創造出來的,但從技術角度看,他們很可能用到了類似的模型壓縮技術(包括蒸餾法)。因為廣告系統需要在客戶端(比如手機)上快速跑模型,同時保持伺服器端的效率,這正是蒸餾法的強項——把大模型的知識轉到小模型,讓它既快又準。不過這只是推測,官方如果沒講細節,我們只能說這種技術很符合 Vector 的需求。


Unity 不是 AI 模型類型的企業,Unity 的強項在遊戲引擎和廣告生態,不是從零開始搞 AI 演算法。他們更可能是「應用者」,借用現有的成熟 AI 技術來實現商業目標。蒸餾法這種現成的、已被驗證的技術,對他們來說是低風險又高效的選擇。

而針對於廣告技術的需求,Vector 的目標是提升廣告投放的效率和精準度,這需要 AI 模型在客戶端(比如手機)和伺服器端都能快速運行。大模型雖然強,但跑起來又慢又貴,而蒸餾法能把大模型壓縮成小模型,既省資源又保持效果,很符合廣告系統的需求。

另外在資源限制方面,Unity 不像 OpenAI 有大量資金和頂尖研究員專攻大模型訓練,Unity 的 AI 團隊規模和投入相對有限。他們不太可能自己花幾個月、燒幾百萬美元去訓練一個全新的大模型。我們從2024年的財報表並沒有發現更大的成本費用產生,而在今年2月份的電話會議中,Matthew也有說明它們的AI平台其實在2024年下半年就開始在開發了,因此,更可能的是拿現成的大模型(比如業界標準的 Transformer 或其他廣告相關模型),然後用蒸餾法優化成適合自己用的版本。

Unity 在移動廣告市場須面對 AppLovin這種純廣告企業等勁敵,Vector 是他們急於推出的競爭利器,而蒸餾法能大幅縮短開發週期,因為不用從頭訓練,直接用大模型的知識教小模型,快速上線很符合商業策略。

前面我也講過,蒸餾法不是什麼新奇技術,很多廣告技術公司(包括 Google Ads、Meta 的廣告系統)都用過蒸餾法來優化模型。Unity 如果想跟上行業標準,借鑑這種技術是順理成章的。

那有什麼證據可以證明Unity使用蒸餾法?

雖然 Unity 沒公開 Vector 的技術細節,但他們過去在 AI 上的做法給了點線索。比如 ML-Agents(他們的機器學習工具包)就偏向實用性,用的模型多是輕量化的,暗示他們對模型壓縮有經驗。加上 Vector 的廣告應用場景(快速、跨平台、低延遲),蒸餾法真的很像他們會挑的路。

這種類似模型壓縮的技術其實也不是只有蒸餾法,比如還有什麼剪枝、量化、分解等,所以Unity 也可能沒直接用蒸餾法,也可能用了其他混搭的方式。



總言之,Unity 不是 AI 演算法的開拓者,他們更像技術整合者,而蒸餾法對他們的資源、需求和市場目標來說幾乎是量身定做。當然,沒有官方確認前,這還是推測,但在邏輯上很站得住腳,因此,別以為Unity的AI平台是用吹的

留言

  1. 同理, 自動駕駛也是

    回覆刪除
  2. Unity 原先作為 SSP 將廣告買給其他 DSP, 假設他今天自己跳進來玩廣告, 他們自己是開發平台, 能在 SDK 中埋入 APP 中, 他能拿來學習模型的廣告資訊不是其他同業能競爭的贏的, 如同 Applovin 一樣, 他們有其他廣告商沒有的優勢

    回覆刪除

張貼留言