【談股市】從Deepseek論蒸餾法以探討Unity Vector

在過年時，一個中國AI模型Deepseek問世，號稱可以省下很多算力資源，自此至今，市場都在嚷嚷叫著輝達做這麼多晶片都是多餘的，讓輝達的股價直直落，直到今天還創過年以來的新低，不過我今天不是要來談輝達，也不是要談Deepseek，是要跟各位分享，讓Deepseek這種號稱可以節省算力資源問世的「蒸餾法」。並且探討今年Unity宣稱下半年推出的AI平台Unity Vector到底是不是真材實料。

所謂的「蒸餾法」，在AI或機器學習的領域裡，簡單來說就是一種把「大模型」的知識「濃縮」到「小模型」的方法。想像一下，你有一個很厲害的老師（大模型），它懂得很多東西，但它太大、太複雜，跑起來很慢、很耗資源。然後你有一個學生（小模型），它比較簡單、輕量，但一開始沒那麼聰明。蒸餾法就像是讓老師把自己的知識「教」給學生，讓學生學會老師的本事，但還是保持輕巧、好用。

到這裡你就會看到老師花了大半輩子的時間（大算力）學習知識，學生只要幾堂課的時間（小算力）就能夠吸收同樣的知識，這就是為什麼Deepseek號稱可以比ChatGPT省很多算力資源的原因。

那具體上蒸餾法怎麼做呢？通常是讓大模型先去看一堆資料，生成一些預測或答案（比如說分類、翻譯之類的），然後把這些結果（或者是它內部的思考方式）拿來訓練小模型。小模型不用從頭學起，而是直接模仿大模型的行為，這樣就能在少用資源的情況下，達到差不多的效果。

用白話比喻，就像把一鍋濃湯熬成一小罐精華醬，味道差不多，但用起來更方便！DeepSeek如果用了這種方法，就是想讓他們的AI變得更高效，跑得更快、省電省力，還能裝進更多地方用。

鴻海劉揚偉董事長在過年後的開工典禮指出：「DS出來之後的好處是，以前是偷偷摸摸做，現在DS可以做了，我們也可以做，沒有強大算力的公司，都可以做模型了，尤其是邊緣AI，如何把模型做得很小，做得很有效能，這會帶動邊緣AI蓬勃發展，帶動整體算力需求。」

蒸餾法對於中小企業來說確實是一個很實用的方法，尤其是在想快速進入AI產業的時候。原因很簡單：開發一個超大的AI模型（像那些頂尖公司用的）需要大量數據、計算資源和專業團隊，這對中小企業來說成本太高、時間也拖不起。而蒸餾法可以讓他們利用現成的大模型（比如公開的或商業授權的模型），把知識轉移到一個小模型上，這樣就能在有限的資源下快速打造出自己的AI產品或服務。比如說，做個客服聊天機器人、圖片辨識工具之類的，都可以用這種方式加速開發。

針對蒸餾法的合法性問題，劉揚偉說，「已經在研究其作法，如何使用模型運用在公司上，至於合作還沒有考慮，其實，DeepSeek這套方法，包括學界與小IC公司都在使用，因為這套蒸餾法可能不合法，但是大家都在搞，都在做。」

這就得看具體情況了，蒸餾法本身是一個技術手段，技術沒什麼「違法」可言，但怎麼用可能會碰到法律或倫理的邊界。以下是幾個關鍵點：

模型來源和版權：如果你用的是別人開發的大模型（比如某家公司或研究機構的），得看它有沒有開放使用權限。有的模型是免費公開的（像某些學術模型），但有的有商業限制。如果沒取得授權就拿來蒸餾，可能侵犯智慧財產權。
數據使用：蒸餾過程中需要數據來訓練。如果這些數據是從別的地方抓來的（比如用戶資料、網路上爬的內容），但沒得到許可，就可能違反隱私法規（像GDPR或台灣的個資法）。
商業競爭：如果蒸餾出來的模型跟原模型功能太像，還拿去賣，可能被原開發者告「不正當競爭」或抄襲。不過這通常得看合約條款或當地法律怎麼判。
公開案例：像DeepSeek這種公司，如果他們用蒸餾法，通常會自己先訓練一個大模型，再蒸餾成小的，這樣就沒啥法律問題，因為知識是自己的。如果他們拿別人的模型來蒸餾，那就得有合法授權才行。

總之，蒸餾法對中小企業是個超實用的捷徑，只要來源合法、使用合規，完全沒問題，還能省錢省力，快速上線！

蒸餾法其實不算什麼新奇技術，它在機器學習領域裡已經存在好一段時間了。最早可以追溯到2000年代中期，特別是在統計學習和模型壓縮的研究中就有類似概念。不過，真正讓「蒸餾法」這個詞火起來，還是在2015年左右，當時Google的研究團隊（包括Geoffrey Hinton，這位是深度學習的大神級人物）發表了一篇論文《Distilling the Knowledge in a Neural Network》，正式把這個方法推廣開來。他們當時是想解決怎麼把大規模神經網路的知識轉移到小模型，讓它們更實用。

接著就來看Unity最近的公開資料號稱一個 AI 驅動的廣告平台－Unity Vector ，這個平台主要目標是提升他們在移動廣告市場的競爭力，尤其是針對用戶獲取（User Acquisition, UA）和廣告投放的精準性。

然而，Unity並非像OpenAI專職於AI演算法的企業，所以Unity使用蒸餾法開發AI模型的可能性？

雖然 Unity 沒明確說 Vector 是使用了蒸餾法創造出來的，但從技術角度看，他們很可能用到了類似的模型壓縮技術（包括蒸餾法）。因為廣告系統需要在客戶端（比如手機）上快速跑模型，同時保持伺服器端的效率，這正是蒸餾法的強項——把大模型的知識轉到小模型，讓它既快又準。不過這只是推測，官方如果沒講細節，我們只能說這種技術很符合 Vector 的需求。

Unity 不是 AI 模型類型的企業，Unity 的強項在遊戲引擎和廣告生態，不是從零開始搞 AI 演算法。他們更可能是「應用者」，借用現有的成熟 AI 技術來實現商業目標。蒸餾法這種現成的、已被驗證的技術，對他們來說是低風險又高效的選擇。

而針對於廣告技術的需求，Vector 的目標是提升廣告投放的效率和精準度，這需要 AI 模型在客戶端（比如手機）和伺服器端都能快速運行。大模型雖然強，但跑起來又慢又貴，而蒸餾法能把大模型壓縮成小模型，既省資源又保持效果，很符合廣告系統的需求。

另外在資源限制方面，Unity 不像 OpenAI 有大量資金和頂尖研究員專攻大模型訓練，Unity 的 AI 團隊規模和投入相對有限。他們不太可能自己花幾個月、燒幾百萬美元去訓練一個全新的大模型。我們從2024年的財報表並沒有發現更大的成本費用產生，而在今年2月份的電話會議中，Matthew也有說明它們的AI平台其實在2024年下半年就開始在開發了，因此，更可能的是拿現成的大模型（比如業界標準的 Transformer 或其他廣告相關模型），然後用蒸餾法優化成適合自己用的版本。

Unity 在移動廣告市場須面對 AppLovin這種純廣告企業等勁敵，Vector 是他們急於推出的競爭利器，而蒸餾法能大幅縮短開發週期，因為不用從頭訓練，直接用大模型的知識教小模型，快速上線很符合商業策略。

前面我也講過，蒸餾法不是什麼新奇技術，很多廣告技術公司（包括 Google Ads、Meta 的廣告系統）都用過蒸餾法來優化模型。Unity 如果想跟上行業標準，借鑑這種技術是順理成章的。

那有什麼證據可以證明Unity使用蒸餾法？

雖然 Unity 沒公開 Vector 的技術細節，但他們過去在 AI 上的做法給了點線索。比如 ML-Agents（他們的機器學習工具包）就偏向實用性，用的模型多是輕量化的，暗示他們對模型壓縮有經驗。加上 Vector 的廣告應用場景（快速、跨平台、低延遲），蒸餾法真的很像他們會挑的路。

這種類似模型壓縮的技術其實也不是只有蒸餾法，比如還有什麼剪枝、量化、分解等，所以Unity 也可能沒直接用蒸餾法，也可能用了其他混搭的方式。

總言之，Unity 不是 AI 演算法的開拓者，他們更像技術整合者，而蒸餾法對他們的資源、需求和市場目標來說幾乎是量身定做。當然，沒有官方確認前，這還是推測，但在邏輯上很站得住腳，因此，別以為Unity的AI平台是用吹的。

搜尋此網誌

K佬碎碎念

【談股市】從Deepseek論蒸餾法以探討Unity Vector

留言

張貼留言

關鍵字找文章