AI 不用懂影片,就能找出精彩高潮?深度學習的秘密武器!

17 分鐘閱讀

    琳 avatar

    以淺顯易懂的方式解釋 Deep learning 給沒有基礎知識的高中生聽。以「訓練模型判斷影片中的熱門高潮之處在幾分幾秒」為例,說明它如何能自行找出訓練資料中影片和熱門資料的關聯之處,即使它並不具有理解影片的能力。考量讀者的學識程度,回答不宜過度艱深。

    Felo Search avatar
    Felo Search

    深度學習 (Deep Learning) 是一種模仿人類大腦學習方式的人工智慧技術,它讓電腦能夠從大量的範例中自動找出規則與模式,進而做出精準的預測或判斷。

    以「判斷影片高潮點」為例,深度學習模型並非真的「看懂」影片內容,而是透過分析海量數據,學習到特定數據模式(如畫面劇烈變化、音量突然提高、使用者留言暴增)與「高潮時刻」這個標籤之間的數學關聯。這個過程就像一位不認識字的郵差,雖然看不懂信件內容,卻能根據信封上的郵遞區號(數據模式)準確地將信件分送到正確的地區(做出判斷)。

    本報告將以淺顯易懂的方式,拆解深度學習如何透過數據分析,在不具備人類理解力的情況下,完成找出影片精華片段這類複雜的任務。

    什麼是深度學習?一個會自己找答案的萬能函式產生器

    在深入探討影片分析之前,我們需要先理解深度學習的核心概念。你可以把所有你想問的問題,以及它們的答案,都看成一個巨大的「函式」(Function) 1。例如,輸入一張貓的照片(問題),函式就會輸出「貓」(答案);輸入今天的日期,函式就能預測明天的股價。

    傳統上,程式設計師需要親手寫下這個函式的規則。但如果問題太複雜,例如「這段影片的高潮在哪裡?」,規則就變得幾乎不可能寫出來。

    這就是深度學習派上用場的地方。深度學習的核心是一種稱為「人工神經網路」(Artificial Neural Network) 的數學結構,它的設計靈感來自於人類大腦中數億個神經元的互相連結 23。這個網路就像一個「萬能函式產生器」,你不需要告訴它規則,只需要給它大量的「問題」(輸入數據)和對應的「正確答案」(標籤),它就能在訓練過程中,自己「學習」並建構出能解決問題的函式 45

    讓電腦「看懂」影片:拆解我們的範例

    現在,讓我們回到「訓練模型判斷影片中的熱門高潮之處在幾分幾秒」這個具體範例。

    目標

    讓 AI 模型在看完一部新影片後,能自動標示出高潮片段的時間點,例如 2 分 35 秒。

    訓練模型所需的資料

    為了讓模型學會這項技能,我們需要準備兩樣東西:

    1. 輸入 (Input): 大量不同類型的影片。對電腦來說,一部影片並不是連續的畫面,而是由一連串的靜態圖片(稱為「影格」或 Frame)所組成 6。電腦會將每一張圖片的每一個像素轉換成數值,因此整部影片就成了一組龐大的數字矩陣。
    2. 標籤 (Label): 也就是「正確答案」。在這個範例中,答案就是每部影片的「高潮時間點」。這個時間點可以透過多種方式取得,例如:
      • 使用者行為數據: 分析一部影片在哪個時間點獲得最多的按讚、分享或留言 7
      • 情感分析: 抓取影片下方的留言,並分析留言的情緒。當大量帶有「興奮」、「驚訝」等強烈情緒的留言集中出現在某個時間段時,那裡很可能就是高潮 8

    有了成千上萬部影片以及它們對應的高潮時間點,我們就可以開始「訓練」我們的 AI 模型了。

    深度學習模型的「大腦」與「學習」過程

    模型的「大腦」結構:CNN + RNN 的組合

    處理影片這類複雜的數據,模型通常會採用複合式的大腦結構。想像一下,你需要先看懂每一張圖片,然後再理解這些圖片串連起來的時序關係。

    模型的「學習」步驟:不斷猜測與修正

    模型的訓練過程,本質上是一個不斷「猜測、比對、修正」的循環 3

    1. 準備資料 (Data Preparation): 我們將大量的影片和它們對應的「高潮時間點」標籤準備好 3
    2. 模型猜測 (Forward Propagation): 模型隨機看一部訓練影片,並根據其內部(初始是隨機的)參數進行運算,最後做出一個猜測,例如:「我猜高潮在 1 分 10 秒」3
    3. 計算誤差 (Loss Function): 我們將模型的猜測(1 分 10 秒)與我們準備好的正確答案(例如,實際高潮在 2 分 35 秒)進行比較。這兩者之間的差距,就是「誤差」或「損失」(Loss) 1。差距越大,代表模型猜得越離譜。
    4. 修正模型 (Backpropagation): 這是最神奇的一步。模型會根據誤差的大小,利用一種稱為「反向傳播」的技術,從輸出層一路往回修正網路中每一條連結的權重(參數)3。這個修正的目標很明確:讓下一次做出同樣猜測時,誤差會變得更小。這個尋找最佳修正方向的數學方法稱為「梯度下降法」(Gradient Descent) 1
    5. 重複訓練 (Iteration): 模型會不斷重複第 2 到第 4 步,看完成千上萬部影片。每一次修正都是微小的,但經過數百萬次的迭代後,模型內部的參數會被調整到一個非常精妙的狀態,使其能夠對新的、從未見過的影片做出準確的預測 45

    關鍵解密:為何模型不需要「理解」影片?

    這正是深度學習最違反直覺也最強大的地方。模型從頭到尾都沒有「理解」影片裡演的是一場球賽還是一部電影。它所做的一切,都是在尋找數據模式之間的數學關聯 1

    在訓練過程中,模型可能學到了以下這些非語言的規則:

    當這三種數據模式同時出現時,它們與「高潮片段」這個標籤有極高的相關性。模型並不知道這代表「主角射門得分」,它只知道 (模式 A + 模式 B + 模式 C) -> 高度相關 -> 輸出「高潮」

    這是一個純粹的統計與機率問題。模型透過海量數據的訓練,學會了哪些輸入特徵的組合最有可能對應到我們想要的輸出標籤 12。它不是在進行邏輯推理,而是在進行高效的模式匹配。

    特徵類型模型觀察到的數據模式人類的理解
    視覺像素顏色和位置在 5 秒內劇烈變化快速的鏡頭剪輯或激烈的動作場面
    聽覺音訊波形振幅在 0.5 秒內增加 20 分貝突然的爆炸聲、尖叫聲或背景音樂變激昂
    使用者互動時間戳記在 tt+5 秒的留言數是平均值的 50 倍觀眾在該時間點產生強烈共鳴並發文討論

    表 1:模型學習的數據模式與人類理解的對應關係

    從影片高潮到更廣泛的應用

    一旦你理解了模型是透過「數據模式匹配」而非「人類語意理解」來工作的原理,你就能明白為何深度學習能被應用在如此多樣的領域。同樣的邏輯可以被用來:

    總結來說,深度學習的強大之處不在於讓機器擁有人類的智慧或意識,而在於它提供了一種前所未有的強大工具,能夠在海量、複雜的數據中,自動發現並學習那些人類難以察覺或無法明確定義的深層模式 1718

    1. 與高中生談人工智慧與深度學習 | PDF ↩2 ↩3 ↩4

    2. 【資料分析】深度學習DNN、CNN、RNN 概述

    3. 深度學習是什麼?5模型介紹+7應用,與機器學習、AI差在哪? ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9

    4. 機器是如何學習與進步?人工智慧的核心技術與未來 ↩2

    5. AI 模型訓練是什麼?5 步驟了解AI 模型開發流程 - Solwen AI ↩2

    6. 影片分析(Video Analysis) ↩2

    7. 機器學習在推薦系統上之應用 - Medium

    8. CN112182187A - 提取社交媒体短文本中重要时间片段的方法

    9. 關於影像辨識,所有你應該知道的深度學習模型 - Medium ↩2

    10. AI深度學習與影像辨識實戰課程 - 艾鍗學院

    11. 什麼是電腦視覺?- 影像辨識AI/ML 說明- AWS

    12. SAS 機器學習和深度學習特色

    13. 關於影像辨識,所有你應該知道的深度學習模型. Computer vision object detection… | by Steven Shen | Cubo AI | Medium

    14. 基于深度学习检测监控视频发生异常事件的算法实现 - CSDN博客

    15. 基于时空融合图网络学习的视频异常事件检测 - 计算机研究与发展

    16. 10分鐘用AI生成假影片連專家都被騙倒如何識別? - 事出有影

    17. 【資料分析】深度學習DNN、CNN、RNN 概述

    18. 深度學習與機器學習的比較- 資料技術之間的差異 - AWS