牧仁教育│教育中心

AI 能認出貓還是狗?淺談圖像辨識的原理

你好 AI!你能看見我的寵物嗎?

大家有沒有想過,自己的電腦或手機會不會非常聰明?甚至聰明到可以玩遊戲、回答問題,或者……認出自己的寵物?這就是人工智能(AI)這個激動人心的世界大顯身手的地方!

這個人人都說的「AI」魔法究竟是什麼?

人工智能是一種引人入勝的技術,它能讓機器以類似於人類的方式「思考」和「學習」。想像一下,一個機械人能夠理解語音、回答問題,甚至下棋。這就是 AI 的實際應用!AI 的核心在於創造出聰明的電腦程式,這些程式能夠解決問題、做出決策,甚至透過檢視資訊、找出模式並適應新事物,隨著時間的推移在執行任務方面表現得更好。

許多人可能已經在不知不覺中接觸到 AI。它存在於流行的電子遊戲中,讓角色表現得更智能。它是語音助理(例如 Siri)背後的技術,能夠理解口語指令。甚至一些機械人吸塵器也使用 AI 來繞過傢俬並自行清潔房間。AI 正在成為日常生活中越來越重要的一部分,讓許多事情變得更有效率,有時甚至更有趣。這些智能程式分析數據、辨識模式和適應新資訊的能力,正是它們如此強大的原因。

重大問題:AI 能分辨貓和狗嗎?

那麼,如果 AI 能做所有這些聰明的事情,它能看著一張圖片,分辨出是毛茸茸的貓還是活潑的狗嗎?答案是響亮而令人興奮的「能」!而理解它如何施展這個驚人戲法本身就是一場冒險。AI 這種辨識和分類影像中事物的特殊能力,被稱為影像辨識。這不僅僅是看到一張圖片;更是理解圖片中的內容。

重要的是要意識到,AI 辨識貓或狗的能力並非某種魔法。機器並非天生就擁有這種知識。相反,這是一種它們學習得來的技能,就像學生在學校學習新事物一樣。AI 系統被編程為從大量數據中學習。這個學習過程是它們能力的關鍵。這也意味著,因為這是一種學習得來的技能,所以其涉及的步驟是可以理解的,人們甚至可以嘗試親自教導 AI,這一點稍後會探討。

AI 能否區分貓和狗的問題,觸及了智能的一個基本方面:感知和分類。人類從很小的時候就能非常自然地做到這一點。比較 AI 如何實現這一點與人類如何學習,可以使複雜的人工智能世界更容易理解和掌握。例如,雖然小孩可以輕易分辨出某樣東西是不是熱狗,但訓練電腦做同樣的事情卻涉及一個複雜的過程。探討這些差異和相似之處,有助於我們欣賞 AI 的聰明才智和人類大腦的驚人能力

電腦如何「看」圖片(跟我們不一樣!)

當有人看著螢幕上的照片時,他們看到的是臉孔、樹木,或者可能是他們最喜歡的卡通人物。然而,電腦「看」同一張圖片的方式卻完全不同。理解這種差異是弄清楚 AI 如何理解圖片的第一步。

圖片是微小點點的拼圖!

想像一下,螢幕上的任何圖片實際上都是由數百萬個極其微小的點點組成的,它們排列在一個網格中,就像一幅巨大而複雜的馬賽克。這些微小的點點中的每一個都被稱為像素。像素非常小,通常肉眼看不見,但它們共同構成了我們所看到的完整影像。可以把它們想像成微小的樂高積木;單個積木只是小小的彩色方塊,但以正確的方式組合起來,它們就能搭建出任何可以想像到的詳細畫面。電腦需要知道每一個像素的資訊才能顯示影像。

秘密顏色代碼:RGB!

每個微小的像素是如何知道自己應該是什麼顏色的呢?它使用一種特殊的秘密代碼,稱為 RGB。這個代碼代表紅色(Red)、綠色(Green)和藍色(Blue)。影像中的每一個像素都會得到一個特定的配方,告訴它需要混合多少紅光、多少綠光和多少藍光。透過混合不同數量的這三種光學三原色,電腦幾乎可以在螢幕上創造出任何可以想像到的顏色。

例如,如果一個像素被告知要使用大量紅光,但沒有綠光或藍光,它就會明亮地顯示為一個紅點。如果它有一個特定的配方,例如「紅色值 255,綠色值 0,藍色值 0」,它就會呈現為鮮豔的紅色。同樣,紅光和綠光的混合產生黃色,藍光和綠光的混合產生青色,而三種顏色以等量高強度混合可以產生白色。如果一個像素被告知不使用紅光、綠光或藍光,它就會是黑色的。電腦會告訴每個像素其獨特的 RGB 配方,當所有像素都以其指定的顏色亮起時,完整的圖片就出現了。

電腦看到的是數字,不是鼻子!

至關重要的是要記住,電腦感知貓的鼻子或狗搖擺的尾巴的方式與人類不同。相反,電腦將影像視為一個巨大的數字網格。這個網格中的每個數字或一組數字,都對應一個像素,並告訴該像素其特定的 RGB 顏色值。例如,在一個常見的 8 位元色彩系統中,像素的紅色、綠色和藍色分量各自由一個介於 0(無顏色)和 255(該顏色的最大強度)之間的數字表示。因此,一張貓的圖片,對電腦來說,只不過是其所有像素的大量此類數字顏色代碼的集合。

這種數字表示是 AI 開始「理解」影像的起點。AI 演算法透過分析這些數字來尋找模式並理解視覺資訊。這種將視覺場景轉換為結構化數字集的過程是一種抽象形式。現實世界是連續且極其複雜的,但數碼影像是一個簡化的、離散的模型。正是這種抽象成可量化格式的過程,使得電腦,進而是 AI,能夠處理和分析視覺資訊。如果沒有將影像轉換成這種數字語言,AI 根本無法「看見」或解釋它們。這個原則不僅適用於影像,也適用於電腦如何處理許多類型的現實世界資訊,例如聲音或文字;它們必須首先轉換為數碼的、數位的格式。

RGB 模型本身是一種加色模型,這意味著它透過將不同顏色的光加在一起以產生螢幕上看到的顏色光譜。這與顏料混合顏色的方式不同(顏料混合是一種減色模型)。雖然這種區別對於 AI 影像辨識的基礎知識來說並不重要,但它突顯了電腦表示顏色等資訊的方式通常與所使用的特定技術相關。

教導 AI 成為超級辨識員!

既然知道電腦將圖片視為每個像素的大量數字集合,那麼下一個問題是:它們如何從那片數據海洋中學會辨識特定的東西,例如貓或狗?這就是影像辨識這個引人入勝的領域發揮作用的地方,它涉及到教導 AI 成為一種「我找到了!」遊戲的冠軍。

什麼是影像辨識?電腦的「我找到了!」遊戲!

影像辨識是指 AI 系統觀看影像並辨識或分類其中物體、人物或其他元素的能力。這就像教電腦玩一個複雜版本的「我找到了!」,它必須找到並說出它看到的內容。例如,它可以被訓練將一堆動物圖片分成「貓」堆和「狗」堆。這個過程通常涉及為影像分配一個標籤或分類,例如「這是一隻貓」。

有時,影像辨識會更進一步。除了僅僅說「這是一隻貓」(這稱為影像分類)之外,它還可以指出貓在圖片中的位置,通常是透過在貓周圍畫一個框。這稱為物體偵測。為了理解 AI 如何分辨貓和狗,我們將主要關注影像分類。

訓練日:AI 需要一位老師(以及大量圖片!)

AI 系統並非天生就知道貓或狗長什麼樣子。它必須被教導,就像學生學習新科目一樣。教導 AI 的主要方式是向其展示大量範例圖片。用於教學的圖片集合稱為訓練數據。

這種教學過程最常用的方法稱為監督式學習。在監督式學習中,訓練數據集中的每張圖片都會被標記。這意味著對於每張貓的圖片,AI 都會被告知:「這是一隻貓」。對於每張狗的圖片,它都會被告知:「這是一隻狗」。這就像給學生看帶有動物圖片的閃卡,並告訴他們每種動物的名字一樣。這種標記至關重要,因為它為 AI 提供了可供學習的正確答案。

為什麼 AI 需要這麼多圖片?因為例如貓和狗,它們的形狀、大小、顏色、品種和姿勢千差萬別。一隻貓可能是一隻蜷縮著睡覺的毛茸茸的波斯貓,而另一隻則可能是一隻正在跳躍的苗條的暹羅貓。一隻狗可能是一隻小小的芝娃娃,也可能是一隻巨大的大丹犬。為了學會普遍辨識「貓」或「狗」,AI 需要看到成千上萬,甚至數百萬這些不同的範例。訓練數據越多樣化、越全面,AI 在準確辨識新的、未見過的影像方面的表現就會越好。如果 AI 在訓練期間只看到白貓的圖片,它稍後可能難以正確辨識黑貓。這說明了一個直接的關聯:輸入(訓練數據)的質量和多樣性顯著地塑造了 AI 學習到的能力及其在新穎、不同輸入上的表現。

學習線索:AI 如何發現「特徵」

當 AI 系統處理所有這些標記過的訓練影像時,它不僅僅是記住它們。相反,它開始辨識有助於區分不同類別(例如貓和狗)的模式、重要特徵和區分線索。這些重要的線索稱為特徵。

可以將特徵想像成 AI 偵探尋找的關鍵證據。對於像動物這樣的視覺物體,這些特徵可以包括:

  • 邊緣和形狀: AI 學會偵測物體的輪廓。例如,它可能會學到尖耳朵的形狀在貓中很常見,而垂耳的形狀在某些狗品種中很常見。整體的身體形狀、尾巴的曲線或臉部的結構都是重要的基於形狀的特徵。
  • 紋理: 紋理是指表面的視覺感受。AI 可以學會辨識像素中的模式,這些模式暗示著蓬鬆的毛皮、短而光滑的毛皮、鱗片或羽毛。這些紋理特徵在區分不同類型的動物或物體時非常有用。
  • 顏色和顏色模式: 雖然單獨的顏色可能並不總是足夠的(因為貓和狗都可以是黑色、白色或棕色),但特定的顏色模式可以是強有力的特徵。例如,虎斑貓獨特的條紋或斑點狗的斑點都是 AI 可以學習的特徵。

AI 分析這些特徵,並學習哪些組合與「貓」標籤最密切相關,哪些與「狗」標籤最密切相關。正是透過在新影像中辨識這些學習到的特徵模式,AI 才能對影像包含的內容做出有根據的猜測。

深入 AI 大腦:神經網絡(超簡單版!)

AI 究竟是如何學習這些特徵,然後利用它們來做決策的呢?它通常使用一種稱為神經網絡的強大演算法。神經網絡是一種計算系統,其靈感來自於人腦的結構和功能,人腦擁有相互連接的神經元。

想像一個由多層超級專業偵探組成的團隊協同工作。

  • 第一層偵探查看影像的原始像素數據,並辨識非常簡單的特徵,例如基本的邊緣或角落。
  • 這一層的輸出會傳遞給第二層偵探。這一層結合簡單的特徵,尋找稍微複雜一些的模式,例如簡單的形狀(圓形、線條)或基本的紋理。
  • 這個過程會持續多層,每一後續層都在前一層的基礎上建構,以偵測越來越複雜和抽象的特徵。例如,後面的層次可能會結合形狀和紋理來辨識物體的某些部分,例如「耳朵」或「腿」。
  • 最後,在通過所有這些層次之後,資訊到達一個輸出層,該輸出層做出最終的決策或分類,例如「此影像包含一隻貓」。

這些神經網絡,特別是一種稱為卷積神經網絡 (CNN) 的類型,在影像辨識任務中表現得異常出色。CNN 被設計為可以直接從影像數據中自動且自適應地學習這種特徵層次結構,從低階邊緣到高階物體特徵,而無需人工手動定義所有這些特徵。這種自動學習特徵的能力使得像 CNN 這樣的深度學習模型在視覺任務中如此強大。

CNN 分層學習特徵的方式──從簡單的線條到複雜的物體部分──與科學家認為人類視覺皮層處理資訊的方式驚人地相似。我們的大腦似乎也具有分層處理機制,初始階段偵測基本的視覺元素,而後續階段則將這些元素整合為對整個物體的感知。雖然 AI 並非大腦的完美複製品,但這種相似性顯示了 AI 設計如何受到自然系統效率和能力的啟發。

同樣重要的是要注意,在使用監督式學習時,附加到訓練數據的標籤(「貓」、「狗」)是由人類定義的。AI 並非從哲學的虛空中發現「貓性」的概念;它正在學習將其看到的像素模式映射到人類提供的特定類別和標籤。這意味著 AI 學習的是以人類為中心的世界觀,基於人類分類和理解事物的方式。

為了讓特徵的概念更清晰,以下是 AI 在嘗試分辨貓和狗時可能會尋找的一些東西:

AI 的特徵偵探工具包!

線索類型 (圖示)

AI「看」什麼

vs. 狗 範例

✏️ 邊緣與線條

物體周圍的清晰線條、輪廓。

貓的尖耳朵輪廓 vs. 狗的垂耳輪廓。

🧩 形狀

整體形態(尖耳朵、圓頭、長尾巴)。

貓臉的三角形 vs. 某些狗較長的口鼻部。

🎨 顏色與圖案

特定顏色或重複圖案(條紋、斑點)。

橘色虎斑條紋(貓) vs. 黑白斑點(斑點狗)。

🖐️ 紋理 (毛皮、羽毛、鱗片)

表面可能的觸感(蓬鬆、光滑、凹凸不平──基於像素圖案)。

像素圖案暗示柔軟的貓毛 vs. 短而粗硬的狗毛。

透過學習辨識和權衡這些不同類型的特徵,AI 建立了一個區分貓和狗的模型,使其能夠對遇到的新影像進行分類。

輪到你了!用 Teachable Machine 訓練你自己的貓狗 AI!

在了解了 AI 如何使用圖片和特徵進行教學之後,有些人可能會想知道自己是否可以嘗試教導 AI。令人興奮的答案是肯定的!Google 提供了一個名為 Teachable Machine 的出色、免費且易於使用的工具,任何人都可以用它來訓練自己的 AI 模型來辨識影像、聲音甚至姿勢,而無需編寫任何一行電腦程式碼。這就像在網頁瀏覽器中擁有一個 AI 遊樂場一樣!

讓我們教 AI 認識貓和狗!(逐步冒險)

本指南將引導您完成使用 Teachable Machine 訓練一個簡單的 AI 模型來區分貓和狗圖片的步驟。這個動手實踐的活動可以使訓練數據、類別和測試 AI 的概念更加清晰和有趣。

步驟 1:收集你的動物照片! 首先需要的是訓練數據。對於這個項目,這意味著貓的圖片和狗的圖片。目標是找到大約 10 到 20 張不同的貓圖片和另外 10 到 20 張不同的狗圖片。雖然專業的 AI 模型使用成千上萬甚至數百萬張圖片,但這個較小的集合非常適合初次實驗。非常重要的是,這些圖片要展現出良好的多樣性。嘗試包括不同品種的貓和狗,它們處於不同姿勢(例如坐著、睡覺或玩耍)以及不同環境(室內、室外、不同背景)的圖片。訓練數據越多樣化,AI 就越能學會泛化。一個快速的安全提示:在網上搜尋圖片時,最好請成年人幫忙。對於這個實驗,最好使用在網上或書中找到的動物圖片,而不是使用個人的寵物照片,除非有成年人監督並給予許可。

步驟 2:前往 Teachable Machine! 開啟網頁瀏覽器(Google Chrome 通常效果最好)並前往 Teachable Machine 網站:teachablemachine.withgoogle.com 。到達該網站後,點擊「開始使用」按鈕。然後,由於這個項目是關於圖片的,請選擇「影像專案」。

步驟 3:建立你的「貓」和「狗」類別! 在影像專案頁面上,會有「類別 1」和「類別 2」的部分。這些「類別」就像帶有標籤的資料夾,每個類別的範例圖片都會放在裡面。將「類別 1」重新命名為「貓」,將「類別 2」重新命名為「狗」。這樣就告訴 Teachable Machine 它需要學習哪些類別。

步驟 4:上傳你的圖片! 現在是時候向 AI 提供訓練數據了。在「貓」類別下,點擊「上傳」按鈕(如果偏好並且有實體圖片或物體,也可以使用「網路攝影機」選項,不過對於收集到的數碼影像,上傳通常更簡單)。選擇在步驟 1 中收集的所有貓圖片。對「狗」類別重複此過程,上傳所有狗圖片。確保貓圖片放入「貓」類別,狗圖片放入「狗」類別!

步驟 5:訓練你的 AI 模型! 將所有貓和狗的圖片上傳到它們正確的類別後,找到並點擊「訓練模型」按鈕。Teachable Machine 現在將開始其學習過程。它將分析提供的所有影像,尋找那些有助於區分貓和狗的特徵。這個訓練過程可能需要一些時間,因為 AI 正在努力「思考」並建立其理解。在訓練過程中,不要關閉瀏覽器分頁,這一點很重要。

步驟 6:測試你的超級智能 AI! 當 Teachable Machine 完成模型訓練後,會出現一個「預覽」視窗。這就是真正有趣的部分開始的地方:測試新訓練的 AI!找一張新的貓或狗的圖片──一張沒有用在訓練數據中的圖片。這一點很重要,因為它可以顯示 AI 在處理從未見過的影像時的泛化能力如何。將這張新圖片展示給 AI,可以在預覽部分上傳,或者如果網路攝影機選項已啟動,則將其對著網路攝影機。觀察輸出。AI 猜測的是什麼?它是否正確地將影像辨識為「貓」或「狗」?注意類別名稱旁邊的百分比。這是 AI 的信心分數,表示它對其預測的確定程度(例如,「90% 貓」)。

如果它犯了錯誤怎麼辦? 如果 AI 有時弄錯了,也不用擔心!AI,尤其是在用少量數據訓練時,仍在學習中。如果它犯了錯誤,可能意味著它需要更多範例,或者其訓練圖片需要更多樣性。Teachable Machine 的一大優點是,可以隨時向類別中添加更多影像,並且可以透過再次點擊「訓練模型」來重新訓練模型。實驗並觀察哪些有效、哪些無效,是理解 AI 如何學習的重要組成部分!

這種使用 Teachable Machine 的動手體驗,將「訓練數據」、「分類」和「測試」等抽象的 AI 概念轉化為直接的互動過程。透過積極參與這些步驟,機器學習的原理變得更加具體。收集數據、將其標記到類別中、啟動訓練,然後測試結果的行為,提供了對 AI 開發流程的第一手了解。

當模型犯錯並需要用更多或不同的影像重新訓練時,這就引入了 AI 開發的迭代性質。它反映了現實世界中 AI 工程師的工作方式,他們會根據效能不斷改進模型。這個過程教導了關於解決問題的寶貴經驗:測試、觀察錯誤、思考錯誤發生的原因(例如,某種類型的狗的圖片不夠多),嘗試解決方案(添加那些圖片),然後再次測試。這是學習和改進的科學方法的實際應用。

此外,當用戶選擇用於訓練的影像時,他們可能會開始看到自己的選擇如何影響 AI 的「智能」。如果他們只用自己毛茸茸的白貓圖片來訓練 AI,他們可能會發現 AI 難以辨識短毛黑貓。這種體驗巧妙地引入了數據敏感性的關鍵概念,以及數據集的構成如何導致結果出現偏差或「偏見」,這個主題稍後會更詳細地探討。它培養了一種早期理解,即人類透過他們提供的數據顯著影響 AI 的行為。

為了幫助充分利用 Teachable Machine 的體驗,以下是一些頂級訓練技巧:

Teachable Machine:頂級訓練技巧!

💡 越多越好! 一般來說,為每個類別(貓和狗)提供的範例圖片越多,AI 就會變得越聰明、越準確。

🔄 混合搭配! 多樣性至關重要。包括不同品種的圖片、動物處於不同姿勢(睡覺、玩耍、坐著)、不同角度以及不同場景(室內、室外、簡單背景、繁忙背景)的圖片。

☀️ 光線好,看得清! 清晰、光線充足的圖片更容易讓 AI「看見」並學習特徵。如果可能,避免使用非常暗、模糊或太小的圖片。

🤔 像 AI 一樣思考! 如果 AI 對某個特定的測試影像感到困惑,試著找出原因。該影像是否與訓練範例看起來非常不同?AI 是否需要看到更多與它弄錯的圖片相似的圖片?

🎉 實驗並享受樂趣! 一旦熟悉了貓和狗,也可以嘗試訓練 Teachable Machine 辨識其他東西(當然,需要成年人的幫助和許可!)。也許是不同種類的花朵、葉子,甚至是手勢。

我們身邊的 AI:影像辨識的驚人應用!

辨識貓和狗是理解 AI 影像辨識基礎知識的一種有趣方式,但這種強大的技術用途遠不止於辨識寵物。AI 的「超級視覺」已經在許多重要的生活領域產生重大影響,以曾經只在科幻小說中想像得到的方式幫助人們。讓我們探討其中兩個令人驚嘆的應用:醫學領域的 AI 和自動駕駛汽車中的 AI。

A 部分:醫學領域的 AI──幫助醫生看得更清楚!

想像一下,醫生擁有一位超級助理,可以幫助他們更早、更準確地發現疾病,從而可能挽救許多生命。這正是 AI 開始在醫學領域,尤其是在醫學影像方面所做的事情。

運作原理: AI 系統可以被訓練來分析複雜的醫學影像,例如 X 光片、CT(電腦斷層掃描)掃描和 MRI(磁力共振成像)。就像貓和狗的例子一樣,這些 AI 模型是在大量的醫學影像數據集上訓練出來的。其中一些訓練影像顯示健康的器官和組織,而另一些則包含各種疾病的細微跡象,例如微小的癌性腫瘤或由肺炎引起的肺部特有的混濁。透過研究數百萬張這些標記過的影像,AI 學會辨識可能指示健康問題的模式和異常情況。它在發現微小細節或細微變化方面變得非常熟練,這些細節或變化可能難以為人眼察覺,尤其是在放射科醫生必須快速查看許多影像時。這就像 AI 已經成為一名專家偵探,記住了無數醫療狀況的視覺特徵。

巨大的益處: 在醫學影像中使用 AI 為醫生和患者帶來了幾個顯著的好處:

  • 更早發現: 最令人興奮的優勢之一是早期發現疾病的潛力。AI 通常可以在癌症或心臟病等疾病的極早期階段就辨識出來,有時甚至在患者出現任何症狀之前。早期發現疾病大大增加了成功治療的機會。
  • 更準確: AI 可以充當醫生的「第二意見」,有助於提高診斷準確性。透過突顯可疑區域或提供量化測量,AI 可以幫助減少誤診的機會,並確保患者獲得正確的治療計劃。
  • 更快的幫助: AI 演算法分析醫學影像的速度比人類快得多。這種速度可以減少患者等待結果的時間,從而可以在需要時更早開始治療。在緊急情況下,這種快速分析可以挽救生命。
  • 幫助醫生專注: 透過自動化影像分析中一些較為常規的方面,AI 可以幫助減輕放射科醫生和其他醫學專家的工作量。這使得這些高技能專業人員能夠將更多時間投入到複雜病例、患者互動和治療計劃上。
  • 一致性: AI 對其分析的每張影像都採用相同的標準,從而產生更一致的解釋,無論涉及哪位醫生或醫院。

B 部分:汽車中的 AI──駕駛的未來!

許多人可能都聽說過自動駕駛汽車──無需人類駕駛員即可導航和操作的車輛。以 AI 為動力的影像辨識是一項基石技術,使這些未來派汽車能夠「看見」並理解周圍的世界。

自動駕駛汽車如何「看見」: 自動駕駛汽車配備了一系列感應器,其中攝影機扮演著至關重要的角色,就像汽車的「眼睛」一樣。這些攝影機不斷捕捉汽車周圍環境的影像。然後,AI 系統使用複雜的影像辨識演算法即時處理這些影像,以解釋它所看到的內容。這些 AI 系統能辨識什麼?

  • 行人: 它們可以辨識在路邊行走、跑步或騎自行車的人,甚至預測他們的行動。
  • 其他車輛: 它們可以偵測和追蹤其他汽車、貨車、巴士和電單車,了解它們的速度和方向。
  • 交通標誌和交通燈: AI 被訓練來辨識大量的交通標誌(如停車標誌、限速標誌、讓路標誌)和交通燈號(紅、黃、綠),使汽車能夠遵守交通法規。
  • 行車線標記: 它們可以辨識道路上定義行車線的油漆線,幫助汽車保持正確的位置。
  • 障礙物: 它們還可以發現道路上的其他障礙物,例如碎片或動物。

讓駕駛更安全、更輕鬆: 透過持續「看見」和「理解」其環境,自動駕駛汽車中的 AI 可以做出智能的駕駛決策。它可以決定何時加速、煞車、轉彎、變換車道或為行人停車是安全的。主要目標是透過減少通常由人為錯誤(如分心或疲勞)引起的事故來顯著提高道路安全,並為可能無法自行駕駛的人提供行動能力。

無論是在醫學領域還是在自動駕駛領域,AI 的一個關鍵優勢是它能夠比人類更快、通常也更一致地處理大量的視覺資訊。AI 不會像人類在工作數小時後那樣感到疲倦或分心。這種能力對於篩選數千張醫學掃描以尋找疾病的細微跡象,或在繁忙的道路上做出瞬間決策等任務至關重要。

此外,AI 有時可以超越簡單地模仿人類視覺。它可能會偵測到數據中人類肉眼不易察覺的模式或相關性,從而可能帶來新的見解或增強的能力。例如,AI 可能會在醫學影像中發現細微的紋理變化,從而在人類專家通常注意到之前預測疾病風險。在駕駛方面,AI 可以融合來自多個感應器(攝影機、光學雷達、雷達)的數據,以創建比單獨人類感官更全面的環境感知。

雖然這些應用前景無限,但它們也突顯了謹慎開發和考慮對這些系統依賴程度的重要性。AI 在醫學領域輔助關鍵決策或控制車輛的能力,強調了持續研究、嚴格測試以及對安全和道德進行深思熟慮討論的必要性。這使我們認識到,雖然 AI 帶來了驚人的好處,但它也是一項仍在不斷發展的技術。

AI 很聰明,但它仍在學習!(局限性與成為一名優秀的 AI 訓練師)

人工智能,尤其是在影像辨識方面,可以完成一些真正令人驚嘆的壯舉。然而,重要的是要記住 AI 並非完美無缺;它是一項不斷發展的技術,有其自身的局限性和挑戰。理解這些有助於欣賞它的優點和目前的界限。

AI 的信心分數:「我 90% 肯定那是一隻貓!」

當 AI 模型(例如用 Teachable Machine 訓練的模型)做出預測時(例如,將影像辨識為「貓」或「狗」),它通常會在其猜測旁邊提供一個信心分數。這個分數通常以百分比顯示。例如,它可能會說「貓:90%」和「狗:10%」。

這個信心分數非常重要,因為它表明了 AI 對其答案的確定程度。高分(例如 95% 或 99%)意味著 AI 非常確定其分類是正確的,基於它在訓練期間學到的知識。較低的分數(例如 60% 甚至 50%)表明 AI 不太確定;它在影像中偵測到的特徵可能模棱兩可,或者與它為任何特定類別學到的知識不完全匹配。這是 AI 表達「我想這是一隻貓,但我並不完全肯定」的一種方式。

哎呀!AI 也會犯錯!

即使是最先進的 AI 系統有時也會感到困惑並犯錯。AI 可能會錯誤分類影像,或者在更複雜的系統(如自動駕駛汽車)中,它可能會誤解情況。這些錯誤發生的原因有幾個:

  • 訓練數據不足(或多樣性不足): 如果 AI 在訓練期間沒有看到足夠的特定物體或情況的範例,那麼當它遇到新的或略有不同的東西時,就可能會遇到困難。例如,如果貓狗 AI 主要是在陽光明媚的戶外拍攝的貓狗圖片上進行訓練,那麼它在處理在昏暗燈光下於室內拍攝的圖片時,準確性可能會降低。
  • 影像質量差: 模糊、太暗、太亮或從非常不尋常的角度拍攝的影像,對 AI 來說可能難以正確分析。如果特徵被遮擋或扭曲,AI 可能無法提取必要的資訊以進行準確分類。
  • 棘手的情況(邊緣案例): 「邊緣案例」是指 AI 沒有經過專門訓練來處理的異常或意外情況。例如,一個看起來有點像貓又有點像狗的物體,或者一個部分隱藏的物體,都可能使 AI 感到困惑。有時,人們甚至會故意試圖透過對影像進行微小、幾乎看不見的更改來欺騙 AI 系統,這些更改可能導致 AI 做出完全錯誤的預測,即使影像對人類來說看起來很正常。這些被稱為對抗性攻擊。
  • 物體遮擋或雜亂: 如果 AI 試圖辨識的物體被另一個物體部分遮擋,或者如果影像非常雜亂,包含許多不同的物品,那麼 AI 就更難分離和辨識目標物體。

「偏見」的嚴重性:如果訓練數據不公平,AI 也不公平。

這是理解 AI 最關鍵的局限性之一。AI 系統從它們被輸入的數據中學習。如果該訓練數據不公平或不能代表真實世界,AI 就可能學習甚至放大這些不公平。這在 AI 中被稱為偏見。

想像一下訓練 AI 辨識「醫生」。如果訓練數據集主要包含男性醫生的圖片,而女性醫生的圖片很少,那麼 AI 可能會學到一種聯想,即「醫生」通常意味著「男性」。因此,它在辨識女性醫生方面的準確性可能會降低,甚至可能在其他相關任務中做出帶有偏見的假設。例如,據報導,亞馬遜不得不停止使用一款 AI 招聘工具,因為該工具對女性求職者表現出偏見,這很可能是因為它是根據主要來自男性的歷史履歷數據進行訓練的。

同樣,如果用於辨識動物的 AI 主要是在淺色狗的圖片上進行訓練,那麼它在嘗試辨識深色狗時的表現可能會很差。這並非因為 AI「選擇」不公平;而是因為它的知識受限於它所看到的範例。如果數據反映了現有的社會偏見或缺乏多樣性,那麼基於該數據建構的 AI 系統很可能會延續這些相同的偏見,從而可能在招聘、貸款申請甚至刑事司法等重要領域導致不公平或歧視性的結果。這突顯了人類在策劃多樣化、具代表性且公平的訓練數據集方面所負有的巨大責任。

AI 並不像人類那樣「理解」(目前還沒有!)

雖然 AI 在尋找數據模式並根據這些模式進行預測方面非常熟練,但它不像人類那樣「理解」概念、背景或擁有「常識」。當 AI 辨識出一隻貓時,它是在辨識一種複雜的像素、邊緣、形狀和紋理模式,這些模式在其訓練中與「貓」這個標籤相關聯。它對貓是什麼沒有更深層次的概念性理解──它是一種活的動物,它會發出咕嚕聲,它可能會追老鼠,或者它如何融入更廣闊的世界。

這種缺乏真正理解意味著 AI 有時會做出在人類看來不合邏輯或荒謬的決定,尤其是在需要細緻入微的解釋或其訓練數據中未明確包含的世界知識的情況下。例如,AI 可能會正確辨識廚房圖片中的所有物體,但不會「知道」熱爐是危險的,或者雪櫃是用來冷藏食物的。複雜神經網絡的內部運作也可能像一個「黑箱」;即使 AI 得到了正確的答案,人類也很難確切理解它是如何得出該決策的,因為它的推理是基於跨越數百萬個參數的複雜數學計算。

理解這些局限性並非要貶低 AI 的成就,而是要培養一種現實和批判性的視角。AI 是一種強大的工具,但就像任何工具一樣,它需要明智地使用,並意識到其潛在的缺陷。AI 的「智能」是人類設計的數據和演算法的反映。因此,道德和有效的 AI 的責任在於創建、訓練和部署這些系統的人。認識到 AI 可能會犯錯並反映偏見,鼓勵批判性參與而非盲目信任,這在 AI 日益融入生活的各個方面時至關重要。

冒險仍在繼續!

探索 AI 世界以及它如何「看見」的旅程是一段激動人心的旅程!從理解電腦如何看待圖片到訓練一個簡單的 AI 來分辨貓和狗,影像辨識背後的核心思想已經被揭示出來。

那麼,AI 如何辨識你的貓或狗呢?讓我們回顧一下!

讓我們快速回顧一下主要的發現:

  • 電腦不像人類那樣看圖片。它們將圖片視為數百萬個稱為像素的微小彩色點,每個點都由數字代碼(例如用於紅、綠、藍光的 RGB)描述。
  • AI 透過研究大量範例來學習辨識這些圖片中的事物。這稱為訓練數據。
  • 在訓練過程中,AI 學會發現影像中的重要線索或特徵,例如邊緣、形狀、紋理和顏色模式。
  • 它通常使用一種受人腦啟發的特殊電腦「大腦」,稱為神經網絡(尤其是用於影像的卷積神經網絡或 CNN),來分析這些特徵並做出猜測或分類。
  • 令人驚訝的是,像 Teachable Machine 這樣的工具讓任何人都可以嘗試訓練自己的簡單 AI 模型,而無需成為編碼專家!

AI 無處不在,而且它總是在學習!

AI 辨識影像的能力不僅僅是一個很酷的技巧;它是一項已經對日常生活產生重大影響的技術,並被用於許多重要領域,從幫助醫生在醫學領域更早地診斷疾病到使自動駕駛汽車能夠安全地在道路上行駛。

更重要的是,AI 是一個不斷發展和演進的領域。世界各地的科學家和工程師一直在努力使 AI 更智能、更準確、更有效率,同時也更公平、更容易理解。今天的 AI 比幾年前先進得多,而未來的 AI 很可能擁有現在難以想像的能力。AI 技術的這種持續發展反映了人們持續學習的重要性,尤其是在一個因技術而迅速變化的世界中。

保持好奇心,未來的 AI 探索者!

希望這次探索激發了您對人工智能這個奇妙世界的好奇心。學習 AI 不僅僅是理解技術;更是理解一種正在塑造未來的力量

有很多方法可以繼續探索。留意日常使用的應用程式和技術──AI 可能在哪裡默默運作?在成年人的幫助下,也許可以嘗試使用 Teachable Machine 進行其他專案,或者使用 Scratch 等平台探索與 AI 相關的簡單編碼活動。還有許多適合兒童的文章、影片甚至營隊,可以更深入地探討 AI 概念。

誰知道呢?透過現在學習 AI,有些人可能會受到啟發,成為將塑造這項技術未來的科學家、工程師、藝術家或倫理學家。也許有一天,今天學習這些知識的年輕人中的一些人,將會是教導 AI 全新事物、發明 AI 的新應用,或確保 AI 以造福全人類的方式被使用的人。與 AI 的冒險才真正開始,每個人都有潛力成為其不可思議旅程的一部分。這種理解可以給人一種能動感,表明 AI 不僅僅是「發生」的事情,而是人們可以理解、影響和貢獻的事情。

Tags: