小編最近嘗試AI對於圖影的解析,其和人類觀看差異在哪?探究一下這個蠻有趣的議題。當AI接收到一張圖片或一支短影時,它的解析與人類的觀察在本質上截然不同,基本上AI解析較不像人類的直觀感受,而是有步驟地分解圖影細節,然後理性建構它所觀察的全局,但最終目標是生成人類能夠理解的流暢敘述。
AI的解析過程:從像素到語義
AI的解析並非像人類一樣「理解」畫面,而是一個多步驟的資料處理與推論過程,以下說明AI的解析過程與最終的觀察敘述:
1.特徵提取:
圖片: AI將圖片視為數百萬個像素點的集合。透過其神經網路預先訓練的深度學習模型,它會逐層提取從低階到高階的特徵。
- 低階特徵: 邊緣、角點、顏色、紋理。
- 中階特徵: 物體的局部部分(如眼睛、輪胎、窗戶)。
- 高階特徵: 完整的物體、場景類別(如一個人、一隻狗、街道」。
短片: 短片本質上是一連串的圖片(影格),AI除了對每個影格進行上述的特徵提取外,還會利用另一類模型,如視訊分類、動作辨識或循環神經網路等多個領域,來分析幀與幀之間的時序變化,例如物體的移動軌跡、動作的連續性(如揮手、跳躍)。
2.物體偵測與識別:
AI會使用物體偵測模型來框出畫面中重要的元素,並標記它們是什麼。例如:這是一隻貓、這是一張沙發。
3.場景理解與關係分析:
接著,AI會嘗試將識別出的物體與整個畫面的上下文結合,理解它們之間的關係和所處的環境。這可能透過場景分類(這是一個廚房)或關係模型(貓「坐」在沙發上)來實現。
4.對短影的動作與事件分析:
這是短片解析的關鍵。AI透過分析連續影格,判斷物體在做什麼,以及是否構成一個「事件」;例如從「人舉起手」–>手向前揮動」–>「臉部有微笑表情」的序列中,推論出「這個人正在開心地道別」。
5.生成語言描述:
最後,將以上所有結構化的資訊(物體、屬性、場景、關係、動作)輸入到一個自然語言生成模型中。這個模型就像一個「翻譯官」,將機器讀懂的數據「翻譯」成符合人類語法習慣的流暢句子。
AI的觀察敘述:最終輸出
綜合以上解析過程,AI最終會輸出一段融合靜態圖片與動態影片資訊的敘述;它會嘗試抓住重點,並建立連貫性。
下面就以AI識物讀景、聊天對話,瞬間,解析後化為文字敘述的真實範例:
汪汪AI創作
上傳上述晴空萬里風景照,Gemini識物讀景先做了地標辨識,圖中分別是克羅埃西亞舊城區的札達主教座堂的高聳鐘樓(右上)及聖多那教堂(下),然後對景吟詞如下:
第一首(針對景):晨光輕拂、城市甦醒,飛鳥振翅、自由飛翔,古老石牆、見證時光
第二首(針對景):天空湛藍、一片純淨,風吹著、帶走煩憂,早安、這寧靜的一刻,屬於、我和這片風景。第三首(針對貓):陽光曬著、一隻橘貓,輕盈地、越過教堂鐘樓,和一隻海鷗、和煦的風
托著牠,牠在微笑。
第四首(針對貓):這座老城、牠曾無數次,在屋頂上、遙望,牠的橘色夢、飄蕩,在純淨的、藍色天空上。
上傳上列會員AI創作短影,ChatGPT倒是很能聊,瞧瞧它是怎麼掰呢?
起頭說:我讀取了影片,長度大約 25 秒,播放速率約 24 fps。我從頭、中段和尾端擷取了幾個代表性畫面,可以逐一描述給你,然後再延伸解析其中的意涵。要不要我先把這些畫面(逐格靜態影像)給你看,再搭配敘述與詮釋?
接著聊:這裡是影片四個關鍵畫面:分別取自開頭、約三分之一處、中後段,以及結尾。接下來我可以依照這些畫面,逐一描述所呈現的內容與氛圍,再幫你整理出影片可能要傳達的象徵或意涵。要不要我先做逐格描述,然後再統合成一個完整的詮釋?
被強制不要廢話後說:這支短片透過連續的光影與場景變化,營造出一種既未來又詩意的氛圍。整體色調偏向冷冽與夢幻,帶有人工智慧生成影像常見的超現實質感。從起始到結尾,畫面似乎在模擬「一段意識的甦醒與流動」:由模糊到清晰、由靜止到流轉,象徵著人類思維或科技系統從潛伏到覺醒的過程。影片中大量的光線交錯與形體生成,給人一種「數據化的自然」之感——彷彿是數位世界在模仿自然的律動,卻又保持著機械般的精準。這暗示了人類與科技、真實與虛擬的交融與張力。結尾的氛圍沒有明確的終止,而像是一個「未完的句子」,意味著未來仍在開展,觀者也被邀請將自身的理解投射其中。總體而言,這部AI生成影片的意涵在於:它表現了一種 意識誕生的隱喻,同時也是 數位世界與人類感性共舞的想像——提醒我們在人工智慧時代,邊界模糊,未來的形貌正由我們與機器共同編織。 要不要我再幫你把這個詮釋濃縮成一段更「文藝感」的短評,適合發在部落格或社群?
最後給出小編要的答覆:這段影像宛如一場數位夢境的流轉,光與影在冷冽與柔和之間交錯,彷彿心靈甦醒的脈動。它不是單純的視覺片段,而是一則寓言:科技正以數據之手模仿自然的呼吸,虛擬與真實在此相遇,織出一首未完的詩。