•
AI 不用懂影片,就能找出精彩高潮?深度學習的秘密武器!
17 分鐘閱讀 •
什麼是深度學習?一個會自己找答案的萬能函式產生器
在深入探討影片分析之前,我們需要先理解深度學習的核心概念。你可以把所有你想問的問題,以及它們的答案,都看成一個巨大的「函式」(Function) 1。例如,輸入一張貓的照片(問題),函式就會輸出「貓」(答案);輸入今天的日期,函式就能預測明天的股價。
傳統上,程式設計師需要親手寫下這個函式的規則。但如果問題太複雜,例如「這段影片的高潮在哪裡?」,規則就變得幾乎不可能寫出來。
這就是深度學習派上用場的地方。深度學習的核心是一種稱為「人工神經網路」(Artificial Neural Network) 的數學結構,它的設計靈感來自於人類大腦中數億個神經元的互相連結 23。這個網路就像一個「萬能函式產生器」,你不需要告訴它規則,只需要給它大量的「問題」(輸入數據)和對應的「正確答案」(標籤),它就能在訓練過程中,自己「學習」並建構出能解決問題的函式 45。
讓電腦「看懂」影片:拆解我們的範例
現在,讓我們回到「訓練模型判斷影片中的熱門高潮之處在幾分幾秒」這個具體範例。
目標
讓 AI 模型在看完一部新影片後,能自動標示出高潮片段的時間點,例如 2 分 35 秒。
訓練模型所需的資料
為了讓模型學會這項技能,我們需要準備兩樣東西:
- 輸入 (Input): 大量不同類型的影片。對電腦來說,一部影片並不是連續的畫面,而是由一連串的靜態圖片(稱為「影格」或 Frame)所組成 6。電腦會將每一張圖片的每一個像素轉換成數值,因此整部影片就成了一組龐大的數字矩陣。
- 標籤 (Label): 也就是「正確答案」。在這個範例中,答案就是每部影片的「高潮時間點」。這個時間點可以透過多種方式取得,例如:
有了成千上萬部影片以及它們對應的高潮時間點,我們就可以開始「訓練」我們的 AI 模型了。
深度學習模型的「大腦」與「學習」過程
模型的「大腦」結構:CNN + RNN 的組合
處理影片這類複雜的數據,模型通常會採用複合式的大腦結構。想像一下,你需要先看懂每一張圖片,然後再理解這些圖片串連起來的時序關係。
卷積神經網路 (CNN):最會看圖的演算法 模型會先用 CNN 來處理每一個影格 3。CNN 就像一位圖像分析專家,它會自動從圖片中提取重要的視覺特徵,例如物體的邊緣、顏色、形狀,甚至辨識出畫面中是否有人、車或其他物件 910。
遞歸神經網路 (RNN):會記得前後文的模型 在 CNN 分析完所有影格並提取出特徵後,模型會將這些有順序的特徵資訊交給 RNN 11。RNN 的特點是擁有「記憶力」,它能記住前幾秒的畫面發生了什麼事,並將其與當前的畫面聯繫起來,從而理解動作的連續性或場景的變化 3。更進階的 LSTM 模型則擁有更長的記憶力,能處理更長時間的影片依賴關係 3。
模型的「學習」步驟:不斷猜測與修正
模型的訓練過程,本質上是一個不斷「猜測、比對、修正」的循環 3。
- 準備資料 (Data Preparation): 我們將大量的影片和它們對應的「高潮時間點」標籤準備好 3。
- 模型猜測 (Forward Propagation): 模型隨機看一部訓練影片,並根據其內部(初始是隨機的)參數進行運算,最後做出一個猜測,例如:「我猜高潮在 1 分 10 秒」3。
- 計算誤差 (Loss Function): 我們將模型的猜測(1 分 10 秒)與我們準備好的正確答案(例如,實際高潮在 2 分 35 秒)進行比較。這兩者之間的差距,就是「誤差」或「損失」(Loss) 1。差距越大,代表模型猜得越離譜。
- 修正模型 (Backpropagation): 這是最神奇的一步。模型會根據誤差的大小,利用一種稱為「反向傳播」的技術,從輸出層一路往回修正網路中每一條連結的權重(參數)3。這個修正的目標很明確:讓下一次做出同樣猜測時,誤差會變得更小。這個尋找最佳修正方向的數學方法稱為「梯度下降法」(Gradient Descent) 1。
- 重複訓練 (Iteration): 模型會不斷重複第 2 到第 4 步,看完成千上萬部影片。每一次修正都是微小的,但經過數百萬次的迭代後,模型內部的參數會被調整到一個非常精妙的狀態,使其能夠對新的、從未見過的影片做出準確的預測 45。
關鍵解密:為何模型不需要「理解」影片?
這正是深度學習最違反直覺也最強大的地方。模型從頭到尾都沒有「理解」影片裡演的是一場球賽還是一部電影。它所做的一切,都是在尋找數據模式之間的數學關聯 1。
在訓練過程中,模型可能學到了以下這些非語言的規則:
- 規則 A: 如果影片某個片段的視覺特徵(由 CNN 提取)顯示畫面中的像素位置在短時間內發生劇烈變化(代表物體快速移動或鏡頭切換)。
- 規則 B: 同時,該片段的音訊特徵顯示音量突然飆高。
- 規則 C: 並且,對應時間點的使用者行為數據顯示留言和按讚數瞬間暴增。
當這三種數據模式同時出現時,它們與「高潮片段」這個標籤有極高的相關性。模型並不知道這代表「主角射門得分」,它只知道 (模式 A + 模式 B + 模式 C) -> 高度相關 -> 輸出「高潮」。
這是一個純粹的統計與機率問題。模型透過海量數據的訓練,學會了哪些輸入特徵的組合最有可能對應到我們想要的輸出標籤 12。它不是在進行邏輯推理,而是在進行高效的模式匹配。
| 特徵類型 | 模型觀察到的數據模式 | 人類的理解 |
|---|---|---|
| 視覺 | 像素顏色和位置在 5 秒內劇烈變化 | 快速的鏡頭剪輯或激烈的動作場面 |
| 聽覺 | 音訊波形振幅在 0.5 秒內增加 20 分貝 | 突然的爆炸聲、尖叫聲或背景音樂變激昂 |
| 使用者互動 | 時間戳記在 t 到 t+5 秒的留言數是平均值的 50 倍 | 觀眾在該時間點產生強烈共鳴並發文討論 |
表 1:模型學習的數據模式與人類理解的對應關係
從影片高潮到更廣泛的應用
一旦你理解了模型是透過「數據模式匹配」而非「人類語意理解」來工作的原理,你就能明白為何深度學習能被應用在如此多樣的領域。同樣的邏輯可以被用來:
- 物件偵測 (Object Detection): 在影片的每一幀中框出所有的人、車輛或其他指定物件 913。模型學會的是特定像素組合模式與「汽車」這個標籤的關聯。
- 行為識別 (Action Recognition): 判斷影片中的人物是在「走路」、「跑步」還是「揮手」6。模型學會的是人體關節點在時間序列上的移動模式與特定動作標籤的關聯。
- 事件偵測 (Event Detection): 在監控影片中自動標示出「車禍」、「火災」或「異常入侵」等事件 1415。模型學會的是與這些事件相關的特殊視覺和運動模式。
- 影片生成 (Video Generation): 利用生成對抗網路 (GAN) 等模型,甚至可以「創造」出全新的、不存在但看起來極其真實的影片 316。
總結來說,深度學習的強大之處不在於讓機器擁有人類的智慧或意識,而在於它提供了一種前所未有的強大工具,能夠在海量、複雜的數據中,自動發現並學習那些人類難以察覺或無法明確定義的深層模式 1718。