為什麼要考 iPAS AI 應用規劃師初級認證?
人工智慧(AI)正快速改變世界,從日常生活到產業應用都能看到它的影子。對於 IT 專業人士、學生或想轉職的人來說,iPAS AI 應用規劃師初級認證是一個重要的跳板。
認證對職涯發展的影響
拿到認證就像拿到一張「AI 通行證」,能證明我們具備基本的 AI 知識與應用能力,讓求職或升遷更有優勢。
認證在產業中的價值
許多公司在導入 AI 時,缺的不是工程師,而是能規劃應用的人才。這張證照正是要培養這樣的角色。
考試基本資訊
考試架構與題型
考試多以選擇題為主,測驗 AI 基礎知識、應用案例、倫理議題等。範圍廣但深度不會太難,重點是概念理解。
考試報名流程與費用
報名方式多為線上申請,初級要考兩科,一科 800 元,初級共兩科。各考季會公告報名時間。
iPAS AI 官方網站:https://www.ipas.org.tw/AIAP/
iPAS 報名登入頁面 https://www.ipas.org.tw/reg/System/Login
考試難度與通過率
屬於入門級,重點在於理解而不是死背。若有基礎資訊背景,準備起來相對輕鬆。2025/8/16 的過考率為 45%。

資料來源:https://www.ipas.org.tw/AIAP/AbilityPageContent.aspx?pgeno=f9025e73-ae4b-470c-95fc-4c7a7207031e
人工智慧概論 重點整理
簡報免費下載
1 人工智慧基礎概念

1.1 AI 發展階段分類
當我們談論人工智慧時,其實就像討論汽車的發展歷程一樣,有著不同的階段和層次。目前學術界普遍將人工智慧的發展分為三個主要階段,每個階段都代表著不同程度的智慧能力表現。
狹義人工智慧 (ANI – Artificial Narrow Intelligence) 是我們現在最常接觸到的AI類型,就像是專業的工匠一樣,每個AI系統都只專精於某一個特定領域。例如,Siri或Google Assistant這類語音助理只會處理語音相關的任務,而Netflix的推薦系統則專門分析你的觀影喜好來推薦電影。這些AI雖然在各自的領域表現出色,甚至可能超越人類,但它們無法跨領域運作。就像一個頂尖的西餐廚師可能完全不會做中式料理一樣,ANI只能在預設的範圍內發揮功能。
從ANI進一步發展,我們期待能達到**通用人工智慧 (AGI – Artificial General Intelligence)**的境界。AGI就像是一個真正聰明的人類一樣,能夠學習並處理各種不同類型的任務。想像一下,如果有一個AI既能幫你寫文章,又能解數學題,還能跟你聊天談心理,甚至能學會開車、做菜、彈鋼琴,這就是AGI的概念。不過,儘管科技界對此充滿期待,AGI目前仍然只存在於理論和研究階段,距離真正實現還有相當長的路要走。
而在更遙遠的未來,理論上可能出現超級人工智慧 (ASI – Artificial Super Intelligence)。ASI就像是把愛因斯坦、達文西、和牛頓的智慧結合起來,然後再放大無數倍的概念。這種AI不只是能做人類能做的事情,更能在所有領域都遠遠超越人類的表現。ASI更像是科幻小說中的概念,是一個極其遙遠且充滿不確定性的未來願景。
1.2 AI 發展三大浪潮
了解了AI的分類階段後,我們來看看AI是如何一步步發展到今天的樣貌。就像工業革命有好幾個階段一樣,AI的發展也經歷了三個主要的技術浪潮,每個浪潮都有其獨特的特色和貢獻。
第一波浪潮 (1950s-1970s):符號主義 AI 是AI發展的起始點,這個時期的研究者相信智慧可以透過邏輯符號和規則來表達。就像我們用數學公式來描述物理定律一樣,早期的AI研究者試圖用邏輯符號來描述人類的思考過程。這個時期最著名的成果是專家系統,比如DENDRAL(用來分析化學分子結構)和MYCIN(用來診斷細菌感染)。這些系統就像是把專家的知識和經驗寫成一本詳細的規則手冊,然後讓電腦按照這些規則來解決問題。雖然在特定領域很有效,但這種方法需要人工輸入大量的規則,而且很難應對複雜多變的現實情況。
接著進入第二波浪潮 (1980s-2000s):統計學習的時代,研究者開始意識到與其手動寫規則,不如讓機器自己從數據中學習規律。這就像是從「老師手把手教學生每一個步驟」轉變為「讓學生自己從大量練習題中歸納出解題方法」。這個時期發展出許多重要的機器學習演算法,包括決策樹、支援向量機(SVM)、隨機森林等。這些方法讓AI系統能夠從歷史數據中自動發現模式,並應用到新的情況中,大大提升了AI的實用性和靈活性。
而我們現在正處於第三波浪潮 (2010s-至今):深度學習的黃金時代。深度學習的核心概念是模仿人類大腦的神經網路結構,就像建造一個簡化版的人工大腦一樣。這種方法特別善於處理複雜的數據,例如圖像、語音、和文字。深度學習讓AI在許多領域都有了突破性的進展,從AlphaGo擊敗圍棋世界冠軍,到ChatGPT能夠進行自然的對話,都是深度學習技術的成果。這個浪潮的特色是需要大量的數據和強大的運算能力,但換來的是前所未有的AI表現水準。
1.3 AI 任務執行基礎
經過前面兩個部分的介紹,我們已經了解AI的發展階段和歷史脈絡,現在讓我們深入探討AI到底是如何工作的。理解這個基礎原理對於後續學習各種AI技術和應用都至關重要。
AI的核心能力可以用一個簡單的概念來理解:從數據中學習模式,並進行推理與決策。這聽起來很抽象,但其實就像人類學習的過程一樣。想像一個小孩學習認識動物,他會看很多動物的圖片,慢慢學會區分貓、狗、鳥的特徵,然後當看到新的動物圖片時,就能根據之前學到的模式來判斷這是什麼動物。
這個過程與傳統的程式設計有著根本性的差異。傳統程式就像是一本詳細的操作手冊,程式設計師會寫下每一個步驟,告訴電腦在什麼情況下該做什麼事情。這種方法對於邏輯清楚、規則固定的任務很有效,但面對複雜多變的現實世界問題時就顯得力不從心。比如要寫一個程式來識別照片中的貓,用傳統方法幾乎是不可能的任務,因為貓的外觀千變萬化,很難用固定的規則來描述。
AI系統則採用完全不同的方法。它們不需要人類預先告訴它們所有的規則,而是透過分析大量的數據來自動發現其中的規律和模式。這就像是讓AI系統自己當學生,從無數的例子中學習,然後形成自己的「理解」。當面對新的情況時,AI系統會運用它從數據中學到的模式來做出推理和決策,這個過程更像是人類的直覺判斷,而不是機械式的規則執行。
這種學習和推理的能力讓AI能夠處理許多以前被認為只有人類才能做的任務,例如理解語言、識別圖像、預測趨勢等等。正是這個基本原理的威力,讓我們看到了AI在各個領域中不斷突破的可能性,也為我們進入下一個章節學習具體的AI技術和應用奠定了堅實的基礎。
2 機器學習類型與方法

機器學習就像是教電腦如何像人一樣學習和做決定的技術。就如同人類可以通過不同方式學習新事物,機器學習也有多種不同的學習方式,每種方式都適合解決不同類型的問題。接下來我們將深入探討四種主要的機器學習類型,讓您了解它們各自的特色和應用場景。
2.1 監督式學習 (Supervised Learning)
監督式學習可以想像成是有老師指導的學習過程。在這種學習方式中,我們會提供電腦大量已經有正確答案的資料,就像給學生練習題和標準答案一樣,讓機器從中學會如何處理類似的問題。這種學習方式的核心概念是使用已標記的資料進行訓練,其中「已標記」意思是每筆資料都有對應的正確答案。
在監督式學習中,有兩種主要的問題類型需要解決。第一種是分類問題,它的目的是將輸入資料對應到離散的類別中。想像一下郵件系統需要判斷每封郵件是正常郵件還是垃圾郵件,或是醫生需要根據X光片判斷病患是否有肺炎,這些都是典型的分類問題應用。在這些情況下,機器需要學會將輸入的資料歸類到預先定義好的類別中。
與分類問題相對的是迴歸問題,它的目的是預測連續數值而非離散類別。舉例來說,根據房屋的坪數、地點、屋齡等因素來預測房價,或是根據歷史銷售數據來預測下個月的銷售額,這些都屬於迴歸問題。線性迴歸就是解決這類問題的經典算法,它特別適合預測連續型目標變數。
為了解決這些不同類型的問題,監督式學習發展出許多常見算法。決策樹是其中一種具有高可解釋性的算法,它就像是建立一套決策規則,讓人們能夠清楚理解機器是如何做出判斷的。Logistic Regression則特別適合處理類別型預測問題,它能夠計算某個樣本屬於特定類別的機率。當面對更複雜的分類問題時,隨機森林算法會是很好的選擇,它結合多個決策樹的預測結果,通常能夠獲得更準確的預測結果。
2.2 非監督式學習 (Unsupervised Learning)
與監督式學習不同的是,非監督式學習就像是讓學生自己探索和發現規律,沒有標準答案可以參考。這種學習方式的最大特徵是使用未標記的數據,也就是說資料中沒有正確答案或目標輸出。機器必須自己從大量資料中發現隱藏模式,找出資料之間的關聯性和結構。
由於非監督式學習不需要訓練的目標輸出,它特別適合用來探索我們還不知道該尋找什麼的情況。比如說,一家公司想要了解顧客的消費行為模式,但不知道顧客可以分成幾種類型,這時就可以使用非監督式學習來自動發現顧客群體的特徵。
在非監督式學習中,聚類分析是最重要的技術之一,它的目標是將相似的資料點歸納到同一個群組中。K-means是最經典的聚類演算法,它會將資料分成預先指定數量的群組,並確保每個群組內的資料點盡可能相似,而不同群組間的差異盡可能大。另一個重要的聚類方法是DBSCAN,它是基於密度的聚類方法,能夠自動決定群組數量,並且對於形狀不規則的群組也有很好的處理能力。
2.3 強化學習 (Reinforcement Learning)
強化學習採用了一種截然不同的學習方式,它更像是透過反覆嘗試和接受回饋來學習的過程。想像一個小孩學習騎腳踏車,他會不斷嘗試不同的動作,當做對了就能保持平衡(獲得正面回饋),做錯了就可能跌倒(獲得負面回饋),透過這樣的過程逐漸學會騎車。強化學習的核心概念就是透過與環境互動學習,系統會根據行動的結果接收獎勵函數 (reward function) 的回饋,並據此調整未來的行為策略。
這種學習方式特別適合處理動態重複互動問題,也就是需要連續做出多個相關決策的情況。在這類問題中,當下的決策不僅會影響即時的結果,也會影響未來可能獲得的回報,因此系統需要學會平衡短期利益和長期利益。
在強化學習中有幾個關鍵要素需要理解。折扣因子 γ 是其中一個重要概念,它決定了系統對未來獎勵的重視程度。當折扣因子越接近1時,表示系統越重視未來獎勵,會更願意為了長期利益而犧牲短期回報。Q-Learning則是強化學習中的核心算法,它透過試誤與回饋的過程,讓系統學習在不同狀況下應該採取什麼行動才能獲得最佳的長期回報。
強化學習在許多前沿應用領域都有出色的表現。最著名的例子是圍棋AI AlphaGo,它透過與自己對弈數百萬局來學習最佳的下棋策略,最終擊敗了世界頂級的圍棋選手。在自動駕駛領域,車輛需要根據路況、交通號誌、行人等各種因素做出連續的駕駛決策,這正是強化學習擅長解決的問題類型。此外,在各種遊戲策略學習中,強化學習也展現了超越人類玩家的能力。
2.4 半監督學習與主動學習
在實際應用中,我們經常會遇到一個困難的問題:獲得大量已標記的訓練資料既昂貴又耗時。想像一下,如果要訓練一個醫學影像識別系統,需要請專業醫師標記成千上萬張影像,這不僅成本高昂,也需要大量時間。為了解決這個問題,研究人員發展出了半監督學習和主動學習這兩種方法,它們都嘗試更有效地利用有限的標記資料。
半監督學習是一種聰明的解決方案,它同時使用少量已標記和大量未標記資料來訓練模型。這種方法的核心理念是,即使某些資料沒有標準答案,它們仍然包含有用的資訊,可以幫助模型更好地理解資料的整體結構。重要的是,半監督學習可以自動從未標記資料中學習,不需要人工干預,這大大降低了人力成本。
主動學習則採用了另一種策略來最大化標記資料的價值。在這種方法中,模型會主動選擇最有價值的樣本請求標記,而不是隨機選擇需要標記的資料。這就像是一個聰明的學生,會主動向老師提問最能幫助自己學習的問題。主動學習使用查詢函數 Q 來從未標記樣本中選出信息量最大的樣本,但這個過程仍然需要人工參與標註過程。
儘管半監督學習和主動學習採用不同的策略,但它們有一個共同特點:都利用未標記資料來輔助監督學習。這兩種方法代表了機器學習領域對於如何更有效利用資料資源的重要探索,在資料標記成本高昂的現實環境中,它們為我們提供了實用且經濟的解決方案。
透過了解這四種主要的機器學習類型,我們可以看出每種方法都有其獨特的優勢和適用場景。監督式學習適合有明確目標的問題,非監督式學習適合探索性分析,強化學習適合需要連續決策的動態環境,而半監督學習和主動學習則提供了在資源有限情況下的實用解決方案。選擇合適的機器學習方法,就像選擇合適的工具一樣,需要根據具體問題的特性和可用資源來決定。
3. 資料預處理與品質管理

在人工智慧的世界裡,資料預處理就像是料理前的食材準備工作一樣重要。想像一下,如果我們拿到一堆雜亂無章的食材,有些已經腐壞、有些缺斤少兩、有些甚至不知道是什麼東西,直接拿去煮菜肯定做不出好料理。同樣地,機器學習模型也需要乾淨、整齊、品質良好的資料才能產生準確的預測結果。這就是為什麼我們需要先了解不同類型的資料,然後學會如何清理、轉換和精簡這些資料。
3.1 資料類型
在開始處理資料之前,我們必須先認識資料的基本分類,就像廚師要先認識食材的種類一樣。在人工智慧應用中,資料主要分為兩大類型:結構化資料和非結構化資料,每種類型都有不同的特性和處理需求。
結構化資料
結構化資料就像是整齊排列在表格中的資訊,每一欄都有固定的格式和意義。最常見的例子包括顧客交易記錄表格,裡面可能有日期、金額、商品名稱等欄位,每一筆記錄都按照相同的格式排列。Excel 財務報表也是典型的結構化資料,會計師將收入、支出、資產負債等數字按照固定的會計科目分類整理。此外,存放在各種資料庫中的欄位設定,每個欄位都有明確的資料類型定義,比如數字欄位只能存數字、日期欄位只能存日期格式,這些都屬於結構化資料的範疇。這類資料的特色是格式統一、容易理解,也相對容易進行分析處理。
非結構化資料
相對於結構化資料的整齊劃一,非結構化資料就像是各式各樣形狀不一的物品,沒有固定的格式可循。人臉影像是最典型的例子,每張照片的解析度、角度、光線條件都不相同,需要特殊的影像處理技術才能讓電腦理解其中的特徵。自然語言文字也是非結構化資料的代表,可能是客戶的評論、新聞文章或社群媒體貼文,長短不一、用詞各異,包含豐富的語意資訊但難以直接量化。醫療領域的 X光醫學影像同樣屬於非結構化資料,每張 X光片的拍攝角度和病灶位置都不盡相同。監控錄影畫面記錄著各種動態場景,而客服電話錄音則包含了語調、語速、方言等複雜的語音資訊,這些都需要運用深度學習等先進技術才能有效處理。
了解資料類型的差異後,我們就能選擇適當的預處理策略,這為接下來的資料清理工作奠定了重要基礎。
3.2 資料清理技術
認識了資料類型之後,接下來要面對的挑戰就是資料品質問題。就像收到一批蔬菜後要先挑揀一樣,我們需要識別並處理資料中的各種問題。在實際的資料科學專案中,最常遇到的問題包括空值、離群值和錯誤值,每種問題都需要不同的處理技術。
空值處理
空值就像是表格中的空白格子,代表某些資訊遺失了。處理這些空值時,我們需要根據資料的特性選擇適當的填補方法。對於數值型資料,比如客戶的年齡或消費金額,我們可以使用平均值來填補空缺,這樣能保持資料的整體趨勢不變。如果資料分布不均勻或存在極端值,中位數會是更好的選擇,因為它不會被異常高低的數值影響而產生偏差。至於類別型資料,像是客戶的職業別或居住地區,最合理的做法是使用眾數,也就是最常出現的類別來填補空缺。有時候,我們也可以選擇將空值視為一個獨立的類別進行處理,或者直接刪除包含空值的記錄,這取決於資料的完整性和分析需求,以及空值比例的高低。
離群值處理
處理完空值問題後,下一個挑戰是離群值。離群值的定義是指那些資料點與大多數資料落點距離極遠的數值,就像在一群身高正常的人中突然出現一個巨人一樣顯眼。這些異常值可能是測量錯誤造成的,也可能是真實存在的極端情況,但都會對機器學習模型的訓練產生不良影響。最常用的處理方法是天花板和地板處理法,具體做法是為數據設定一個合理的最大值上限(天花板)和最小值下限(地板),任何超出這個範圍的數值都會被調整到邊界值。這種方法既能保留大部分資料的原始特性,又能避免極端值對模型學習造成干擾,讓模型能夠學習到更穩定和一般化的規律。
錯誤值處理
最後一種常見的資料品質問題是錯誤值。這些是明顯不合理或不可能存在的數值,比如出現負數的年齡、超過 24 小時的時間,或是在性別欄位出現數字等明顯的資料輸入錯誤。當我們發現這些錯誤值時,如果無法判斷正確性或確定正確的數值應該是什麼,最安全的做法就是將這些錯誤值視為空值來處理,然後套用前面提到的空值處理方法。這種處理方式能夠避免錯誤資訊對模型造成誤導,同時保持資料處理的一致性。
清理完資料中的各種品質問題後,我們就為下一步的資料轉換做好了準備。
3.3 資料轉換技術
資料清理完成後,接下來面臨的挑戰是如何讓不同格式的資料能夠被機器學習模型理解和使用。這就像是翻譯工作,需要將各種「語言」的資料轉換成機器能夠「讀懂」的統一格式。在人工智慧的演算法世界中,大部分的機器學習模型都只能處理數值型資料,因此資料轉換是一個關鍵的預處理步驟。
類別型轉數值型
機器學習演算法基本上只能處理數字,所以我們需要將文字或類別資訊轉換成數值形式。最直觀的例子是教育程度的轉換,我們可以根據入學年齡將學歷轉換為對應的數值:小學對應 6 歲、國中對應 12 歲、高中對應 15 歲、大學對應 18 歲。這種轉換方法不僅讓機器能夠理解教育程度的概念,還保留了教育階段之間的順序關係和差距大小,讓模型能夠更準確地學習這些特徵對預測結果的影響。除了順序性的類別之外,對於沒有順序關係的類別資料,我們也可以使用 One-Hot Encoding 等技術將每個類別轉換成獨立的二進位特徵。
離散化方法
有時候我們需要將連續的數值資料切分成不同的區間,這個過程稱為離散化或分箱(Binning)。在處理客戶年齡或收入資料時,我們經常會用到兩種主要的離散化方法。等寬裝箱法是將資料範圍平均分割,比如將年齡從 0 到 100 歲分成 10 個區間,每個區間都是 10 歲的寬度。這種方法簡單直觀,計算容易,但可能會造成某些區間的資料過多或過少,導致資料分布不均。相對地,等分裝箱法則是確保每個區間包含相同數量的資料筆數,這樣能夠讓訓練樣本更加平衡,避免模型過度偏重某些特定區間的特徵,有助於提升模型的泛化能力。
資料一般化
在處理類別型資料時,資料一般化是類別型欄位最常用的清理方法。這個技巧的概念是將過於具體的類別合併成更廣泛的分組,既能簡化資料結構,又能提高模型的泛化能力。最典型的例子就是地理位置的一般化處理,我們可能原本有「台北市」、「新北市」、「桃園市」等詳細的城市資訊,但為了讓分析更有意義且減少雜訊,我們可以將這些具體位置一般化為「北部地區」、「中部地區」、「南部地區」等更廣泛的分類。這樣不僅減少了類別的數量,降低了模型的複雜度,也讓模型能夠學習到更穩定和可靠的地域特徵模式。
完成了資料轉換後,我們還需要考慮如何讓資料量更適合模型訓練的需求,這就進入了資料精簡的階段。
3.4 資料精簡技術
即使經過清理和轉換,我們的資料集可能仍然過於龐大或複雜,就像一個裝滿雜物的倉庫,需要進一步整理才能有效利用。在機器學習的實務應用中,資料精簡不僅能提升模型訓練的效率,還能改善模型的效果和穩定性,避免過度擬合的問題。
記錄精簡(Record Reduction)
記錄精簡的核心概念是減少資料的數量,但保留最有價值的資訊。首先要處理的是移除重複的資料列,這些重複記錄就像是同一張照片的多個副本,不僅佔用儲存空間和計算資源,還可能讓模型對某些特定模式產生過度偏好,影響學習的公正性。去除重複資料後,我們還需要從剩餘的資料中僅保留具代表性的樣本,就像從一大群人中挑選代表參加會議一樣,要確保選出的樣本能夠反映整體的特徵分布和變異情況。這種選擇性的資料精簡能夠在保持資料多樣性的同時,大幅提升訓練效率。
屬性值精簡(Value Reduction)
在處理類別型欄位時,我們經常會遇到一些出現頻率極低的屬性值。這些稀少的類別就像是偶爾出現的訪客,對整體分析的貢獻有限,卻會增加模型的複雜度並可能導致過度擬合。最有效的處理方式是將類別型欄位中出現極少的屬性值合併成一類,通常命名為「其他」或「雜項」。這種做法不僅簡化了資料結構,減少了需要學習的參數數量,還能讓模型更專注於學習那些真正重要且具有統計意義的主要類別特徵,提升模型的穩定性和可靠性。
屬性擴充
雖然叫做「精簡技術」,但有時候我們需要透過整合既有資料來創造新的、更有意義的屬性。這就像是將散落的積木組合成更完整的作品。在實務應用中,內部資料統整是常見的屬性擴充方式,最典型的例子是將客戶的個別交易紀錄加總計算出「每月消費總額」、「平均單筆消費金額」或「購買頻率」等衍生指標。這些新創建的屬性往往比原始的單筆交易記錄更能反映客戶的消費行為模式和偏好,為模型提供更有價值和更具預測力的學習資料。
經過資料精簡處理後,我們通常會得到一個更乾淨、更集中的資料集,但有時候這個資料集可能仍然很大,這時就需要考慮抽樣技術了。
3.5 抽樣方法
在大數據時代,我們經常面臨資料量過於龐大的挑戰。就像要了解一鍋湯的味道,我們不需要喝完整鍋,只需要嚐一小口就能判斷。抽樣方法的目的就是利用少量樣本推估整體母體的特性,既能保持統計的準確性,又能大幅提升處理效率。在機器學習的實務應用中,適當的抽樣策略能讓我們在合理的時間和運算資源限制內完成模型訓練,同時維持模型的效果。
分層抽樣
在所有抽樣方法中,分層抽樣是最能確保樣本代表性的技術之一。分層抽樣的核心概念是針對具有高同質性但互不重疊的群體分別進行抽樣,能確保各群體都有代表性。想像一下,如果我們要調查全國民眾對某項政策的看法,直接隨機抽樣可能會導致某些地區或年齡層的民眾比例失衡,讓調查結果出現偏差。使用分層抽樣的話,我們可以先將民眾依據地區、年齡、職業等重要特徵分成不同的層次,再從每一層中抽取適當比例的樣本。這樣能夠確保最終的樣本在各個重要特徵上都具有足夠的代表性,讓分析結果更能反映真實的母體情況,避免某些少數群體被忽略或某些多數群體被過度代表的問題。
透過這種精密的抽樣設計,我們不僅能有效控制資料處理的規模和成本,還能確保機器學習模型在訓練過程中接觸到各種不同類型的樣本,避免產生偏差或過度擬合的問題,提升模型在真實世界應用時的可靠性和穩定性。
經過完整的資料預處理與品質管理流程後,我們的原始資料已經轉變成適合機器學習模型使用的高品質資料集。從最初的資料類型識別,到清理各種品質問題,再到轉換資料格式、精簡資料規模,最後透過科學的抽樣方法選取訓練樣本,每一個步驟都是為了讓機器學習模型能夠學習到最準確、最有用的知識。這個紮實的基礎工作雖然耗時,但卻是成功建立可靠人工智慧系統不可或缺的重要環節,也是 AI 應用規劃師必須熟練掌握的核心技能之一。
4. 模型評估與性能指標

在機器學習中,建立好模型之後,最重要的就是評估它的表現好不好。就像我們考試後要看成績一樣,機器學習模型也需要透過各種方法來測試它的能力。在這個章節中,我們將學習如何正確地評估模型,以及遇到問題時該如何解決。
4.1 資料分割
想像一下,如果我們要測試一個學生的數學能力,絕對不能用他練習過的題目來考試,因為這樣測不出他真正的實力。機器學習也是同樣的道理,我們需要把資料分成不同的部分,才能真正了解模型的表現。
訓練資料 (Training Data) 就像是學生的練習題,專門用來訓練模型學習各種規律和模式。模型會透過這些資料來調整自己內部的參數,就像學生透過練習題來熟悉解題方法一樣。這部分的資料佔總資料的大部分,通常是70%到80%。
然而,光有練習是不夠的,我們還需要真正的考試來檢驗學習成果。測試資料 (Test Data) 就扮演著期末考的角色,專門用來評估模型在完全沒見過的資料上能有多好的表現。這個部分非常關鍵,因為它不能用於訓練或調整模型,必須保持「乾淨」的狀態,才能給出公正的評分。
除了基本的訓練測試分割,還有一個更精密的方法叫做 K-fold 交叉驗證。以 5-fold 為例,我們把所有資料分成5等份,然後進行5輪的訓練和測試。每一輪都用其中4份來訓練模型,剩下1份來測試,這樣總共會得到5個不同的測試結果。透過這種方法,我們可以更全面地了解模型的穩定性,就像一個學生考了5次不同的測驗,我們就能更準確地評估他的真實水準。
4.2 分類評估指標
當我們要評估一個分類模型的好壞時,就像醫生診斷病人一樣,我們需要知道模型預測的準確程度。這時候就需要用到各種評估指標,它們就像是不同角度的成績單,告訴我們模型在哪些方面表現好,哪些方面需要改進。
混淆矩陣相關指標 是最基本也最重要的評估工具。首先我們來了解幾個關鍵概念:TP (True Positive) 代表正確預測為正例的數量,TN (True Negative) 代表正確預測為負例的數量,FP (False Positive) 代表錯誤預測為正例的數量,FN (False Negative) 代表錯誤預測為負例的數量。
精確率 (Precision) 的計算公式是 TP / (TP + FP),它告訴我們在所有預測為正例的案例中,有多少是真正正確的。就像一個醫生說100個人有病,結果真的有90人有病,那精確率就是90%。這個指標特別重要當我們不希望有太多誤報的時候,比如垃圾郵件過濾或者疾病診斷。
召回率 (Recall) 的計算公式是 TP / (TP + FN),它衡量的是在所有實際為正例的案例中,我們成功找到了多少。延續上面的例子,如果實際有100個病人,醫生成功診斷出其中80個,那召回率就是80%。當我們不希望漏掉重要案例時,比如癌症篩檢或者詐騙偵測,召回率就變得非常重要。
準確率 (Accuracy) 的計算公式是 (TP + TN) / (TP + TN + FP + FN),這是最直觀的指標,代表所有預測中正確的比例。不過要注意的是,當資料不平衡時(比如1000個案例中只有10個是正例),準確率可能會產生誤導,因為即使模型什麼都不做,只要都預測為負例,準確率也能達到99%。
除了這些基本指標,我們還有更進階的評估方法。ROC 曲線 是一個非常有用的視覺化工具,它繪製的是 TPR (真陽性率,也就是召回率) 對 FPR (假陽性率) 的關係圖。想像這是一個座標系,橫軸是誤報率,縱軸是正確檢出率,理想的模型會儘量接近左上角,代表高檢出率但低誤報率。
AUC (Area Under the Curve) 則是ROC曲線下方的面積,範圍從0到1。AUC值為0.5就代表模型的表現跟隨機猜測一樣,沒有任何預測能力;AUC值越接近1,表示模型的辨別能力越強。一般來說,AUC超過0.7就算是可接受的模型,超過0.8算是好模型,超過0.9就是優秀的模型了。
4.3 模型問題診斷
在模型訓練和評估的過程中,我們經常會遇到一些問題,就像醫生看病時會遇到各種症狀一樣。學會診斷這些問題並找出解決方法,是成為機器學習專家的關鍵技能。
過度擬合 (Overfitting) 是最常見的問題之一,就像一個學生死背題目答案,雖然練習題都做得很好,但遇到新題目就不會了。具體來說,過度擬合的現象是模型在訓練資料上的準確度很高,甚至可能達到100%,但在測試資料上的表現卻很差。這是因為模型過度學習了訓練資料中的特殊細節和噪音,而不是真正的規律和模式。
造成過度擬合的原因有很多,最主要的是模型太複雜,參數太多,就像用一個1000度的多項式去擬合10個資料點一樣,雖然能完美通過每個點,但對新資料的預測能力會很差。另一個原因是訓練資料太少,模型沒有足夠的範例來學習真正的規律,只能記住現有的資料。
除了過度擬合,我們還需要注意 訓練與測試差異 的問題。如果數值型屬性在訓練集與測試集的分佈差異過大,就會導致模型的準確度大幅下滑。這就像一個學生只練習過簡單的加法,突然考試時遇到複雜的微積分,當然會表現很差。比如說,如果訓練資料中的年齡都在20-30歲之間,但測試資料中的年齡卻在60-70歲之間,模型就很難做出準確的預測。
要發現這些問題,最重要的是要仔細觀察訓練過程中的學習曲線。如果訓練準確率持續上升,但驗證準確率卻開始下降或停滯,這就是過度擬合的明顯徵象。同時,我們也要檢查資料的統計特性,確保訓練集和測試集在各個屬性上的分佈都相近。
4.4 正則化技術
當我們發現模型出現過度擬合的問題時,就需要採取一些技術來解決。正則化技術 就像是給模型加上一些限制條件,防止它過度複雜化,確保它學到的是真正有用的規律而不是無意義的細節。
L1 正則化 是一種常用的方法,它的原理是在原本的損失函數中加入權重絕對值總和作為懲罰項。想像模型的每個權重都要付「稅」,權重越大,稅就越重。這樣模型就會傾向於使用較小的權重,甚至會把一些不重要的權重直接設為0,達到特徵選擇的效果。這就像一個公司在成本控制下,會自然地淘汰不必要的部門和職位。
L2 正則化 的做法類似,但它加入的是權重平方和作為懲罰項。與L1不同的是,L2正則化不會讓權重變成0,而是讓所有權重都變小。這種方法特別適合處理多重共線性的問題,就像把所有相關的特徵都保留,但降低它們的影響力,避免任何一個特徵過度主導模型的決策。
Dropout 是專門針對神經網路設計的正則化技術。它的做法是在訓練過程中隨機將某些神經元設為0,強迫模型不能過度依賴特定的神經元。這就像一個團隊中隨機讓某些成員請假,迫使整個團隊培養更好的協作能力和冗余機制。Dropout通常在訓練時使用,但在預測時會關閉,讓所有神經元都參與計算。
需要特別注意的是,梯度下降 雖然也是模型訓練中的重要技術,但它是一種最佳化方法,用來尋找最佳的模型參數,而不是正則化技術。梯度下降就像是在山上尋找最低點的過程,它告訴我們往哪個方向走才能讓損失函數最小,但它本身並不能防止過度擬合。
透過適當運用這些正則化技術,我們可以建立出既準確又穩定的模型。關鍵是要根據具體的問題和資料特性來選擇合適的方法,有時候甚至需要組合多種技術才能達到最佳效果。記住,機器學習的目標不是讓模型在訓練資料上表現完美,而是要讓它在現實世界的新資料上也能有良好的表現。
5. 深度學習與神經網路:從基礎概念到現代應用

5.1 神經網路基礎
想要了解深度學習,我們首先要搞清楚神經網路到底是什麼東西。簡單來說,神經網路就像是模仿人類大腦運作方式的一種電腦程式。就像我們的大腦有很多神經元互相連接,神經網路也是由許多人工神經元組成的網狀結構。
與傳統機器學習的區別
傳統的機器學習方法就像是教一個小朋友認識動物,我們需要先告訴他「狗有四條腿、有毛、會叫」這些特徵,然後他才能學會分辨狗和貓。但是神經網路就不一樣了,它可以透過多層結構自動學習這些複雜特徵。你只要給它看很多狗和貓的照片,它就能自己找出區別的方法,甚至發現一些我們人類沒注意到的細微差異。
這種能力特別適合處理非線性數據,什麼是非線性數據呢?想像一下畫一條直線來區分兩種東西,如果畫得出來就是線性的,畫不出來就是非線性的。現實世界的數據大多都是非線性的,像是語音、影像、文字等等,傳統方法很難處理,但神經網路卻能輕鬆應付。
不過神經網路也有個缺點,就是需要大量數據支持。就像小朋友要看過很多狗狗的照片才能準確認出狗狗一樣,神經網路也需要餵給它大量的範例資料才能學得好。如果數據太少,它可能會學得不夠準確,甚至出現過度學習(Overfitting)的問題。
5.2 深度學習模型類型
了解了神經網路的基本概念後,我們來看看現在有哪些不同類型的深度學習模型。這些模型就像是不同的工具,每一種都有它擅長的任務。
生成式 AI 模型
近年來最火紅的就是生成式 AI 模型了,這類模型的特色是能夠「創造」新的內容,而不只是分析或分類現有的資料。
首先是 GAN(Generative Adversarial Networks,生成對抗網絡)。GAN 的運作原理很有趣,就像是一場永不停歇的貓抓老鼠遊戲。它包含兩個部分:生成器和判別器。生成器就像是一個偽造者,專門生成假的資料;判別器則像是鑑定專家,專門分辨真假。透過生成器與判別器的對抗過程,生成器會越來越會做假,判別器也會越來越會分辨,最終生成器就能產出非常逼真的資料了。
接下來是 VAE(Variational Autoencoder,變分自編碼器)。VAE 結合了自編碼器和機率理論,它的工作方式比較像是先把資料壓縮成一個小小的密碼,然後再從這個密碼重建出原來的資料。通過這個過程,VAE 學會了如何用簡潔的方式表達複雜的資料,並且能夠生成新的、類似的內容。
在圖像生成領域最成功的要算是擴散模型(Diffusion Models)了。你可能聽過 DALL-E 或 Stable Diffusion 這些能夠根據文字描述生成圖片的神奇工具,它們背後用的就是擴散模型技術。擴散模型的概念就像是把一張清晰的照片慢慢加上雜訊變成雪花點,然後學會如何把雪花點反向處理變回清晰的照片。
非深度學習模型
雖然我們在談論深度學習,但也不能忽略一些傳統但依然有用的方法。SVM(Support Vector Machine,支持向量機)就是其中的佼佼者。SVM 是傳統機器學習算法,主要用於分類和迴歸任務。它的基本想法就是在數據中找到一條最佳的分界線,讓不同類別的資料能夠清楚分開。雖然 SVM 不是深度學習,但在某些特定情況下,它的表現仍然非常出色,而且計算速度快、需要的資料量也比較少。
5.3 現代架構
從傳統的神經網路發展到現在,有兩個重要的現代架構概念改變了整個遊戲規則,讓深度學習能夠處理更複雜的任務。
Transformer 模型
首先要介紹的是 Transformer 模型,它可以說是現代 AI 發展的關鍵技術。Transformer 的核心技術是注意力機制(Attention Mechanism)。什麼是注意力機制呢?想像你在讀一篇文章,當你讀到某個詞的時候,你的大腦會自動去注意跟這個詞相關的其他詞彙,這就是注意力的概念。
傳統的神經網路處理文字時必須按照順序一個字一個字讀,就像我們看書必須從左到右一樣。但是 Transformer 可以同時看整個句子,並且知道每個詞之間的關係有多重要。這種能力讓它在理解語言的語義和上下文方面表現得特別好。
正因為這個優勢,Transformer 成為了大型語言模型的基礎架構。你可能聽過 GPT、BERT 這些名字,它們都是建立在 Transformer 架構之上的。可以說,沒有 Transformer,就沒有現在我們看到的這些聰明的 AI 助手。
端到端學習
最後要談的是端到端學習(End-to-End Learning)這個重要概念。過去我們要讓電腦處理複雜任務時,通常需要把問題分解成很多小步驟,每一步都要人工設計特定的處理方法。比如說要讓電腦識別照片中的物體,我們可能需要先找邊緣、再找形狀、然後分析紋理等等,每一步都需要工程師精心設計。
但是端到端學習改變了這個做法,它能夠直接從原始輸入處理到最終輸出,中間的所有步驟都讓神經網路自己學習。這就像是給一個人看很多照片和對應的標籤,讓他自己摸索出識別的方法,而不是教他一堆規則。這種方法與傳統使用工程化特徵的方法完全不同,不但簡化了開發流程,往往還能得到更好的效果。
端到端學習的成功,標誌著我們從「教電腦怎麼做」轉變為「讓電腦自己學會怎麼做」的重大轉折。這個轉變不只是技術上的進步,更代表了我們對於人工智慧本質理解的深化,為未來更智慧、更靈活的 AI 系統奠定了堅實的基礎。
6. AI 應用與實務案例

在進入實務應用之前,我們需要先理解人工智慧的基本分類和運作方式。人工智慧技術依照功能特性,可以分為兩大類型:鑑別式AI和生成式AI。這兩種類型各有不同的強項和應用場景,了解它們的差異,能幫助我們選擇最適合的技術來解決實際問題。
6.1 鑑別式 vs 生成式 AI
鑑別式人工智慧是一種專門用來「辨認和分類」的AI技術。就像是一位經驗豐富的醫生,能夠從X光片中判斷病人是否有骨折,或是像銀行的風險管理專員,能從客戶的信用資料中判斷是否應該放款。鑑別式AI的核心功能是從大量資料中辨識出特定的模式,然後進行分類與預測。它的特徵在於能夠準確地從資料中辨識出樣本所屬的分類,但是它無法生成全新的內容,只能針對現有的資料進行分析、分類和預測工作。
相對於鑑別式AI的分析特性,生成式人工智慧則展現了「創造」的能力。它就像是一位多才多藝的藝術家,不僅能理解現有的作品,還能創作出全新的內容。生成式AI的主要應用包括創建合成數據樣本、生成文本內容,以及模擬各種數據分佈。不過需要注意的是,並非所有AI應用都屬於生成式範疇,例如分類醫學影像這類工作,實際上是鑑別式AI的應用領域,因為它專注於辨識和分類,而非生成新內容。
這兩種AI技術並不是互相競爭的關係,而是能夠協作互補的夥伴。協作案例的典型應用就是自動駕駛系統的開發。在這個應用中,生成式AI負責模擬各種複雜的交通場景,包括不同天氣條件、路況變化、行人行為等情況,創造出豐富多樣的訓練資料。接著,鑑別式AI則利用這些模擬資料來訓練自動駕駛模型,學習如何在真實環境中正確識別路標、行人、其他車輛,並做出適當的駕駛決策。
6.2 自然語言處理 (NLP)
從AI的基本分類開始,我們現在深入探討其中一個最重要的應用領域:自然語言處理。自然語言處理讓電腦能夠理解和處理人類的語言,就像是為電腦安裝了一套語言理解系統,讓機器能夠與人類進行更自然的溝通。
核心技術方面,自然語言處理涵蓋了多個重要的技術領域。首先是語音識別技術,它能將人類的語音轉換成文本,這項技術廣泛應用在語音助理系統中,讓我們可以直接對手機或智慧音箱說話來下達指令。接下來是自然語言生成技術,它能夠生成流暢、自然的文本內容,這項技術是聊天機器人能夠與用戶進行對話的關鍵。機器翻譯則是另一項重要應用,它能夠自動翻譯不同語言之間的內容,大大促進了多語言溝通的便利性。最後是語意分析技術,這是理解文本真正含義的核心技術,主要用於情感分析、文本分類,以及問答系統等應用場景。
在理解這些核心技術的運作方式時,我們需要掌握一些重要概念。Token是自然語言處理中的基本單位概念,可以想像成是文本的最小處理單元,通常是一個完整的單詞或是單詞的一部分。就像是將一本書拆解成一個個的字詞,電腦才能逐一處理和理解內容。另一個關鍵概念是Function Calling,這項技術讓大型語言模型具備了呼叫外部API和工具的能力,就像是為AI助理配備了各種專業工具,讓它能夠執行更多樣化的任務,而不僅僅是回答問題。
6.3 電腦視覺
自然語言處理讓電腦理解文字和語音,而電腦視覺則讓電腦擁有了「看」的能力。電腦視覺技術讓機器能夠處理和理解影像資料,就像是為電腦裝上了一雙智慧的眼睛。
應用場景中最貼近日常生活的例子就是超市的自動結帳系統。想像一下,當你在超市購物時,只需要將商品放入購物車,系統就能自動檢測出每件商品是什麼,並且立即進行計價收費,完全不需要人工掃描條碼或手動輸入。這整個過程的主要技術就是電腦視覺,系統透過攝影機拍攝的影像,運用深度學習演算法來識別不同的商品,判斷商品的種類、數量和價格,然後自動完成結帳流程。這不僅大幅提升了購物效率,也減少了人工作業的錯誤率。
6.4 聯邦學習
從個別技術應用轉向更複雜的協作學習機制,聯邦學習代表了一種全新的AI訓練方式。傳統的機器學習需要將所有資料集中到同一個地方進行訓練,但聯邦學習打破了這個限制,讓分散在不同地點的資料能夠共同參與模型訓練,同時保護資料的隱私和安全。
模型聚合目的是聯邦學習的核心機制。在這個過程中,中央伺服器會將各個客戶端回傳的模型參數進行整合,形成一個更新、更強大的全域模型。就像是集合眾人智慧的過程,每個參與者都貢獻自己的學習成果,最終形成一個比任何單一參與者都更優秀的整體模型。
聯邦學習的運作可以分為四個清楚的階段劃分。首先是初始模型下發階段,中央伺服器會提供一個基礎的初始模型給所有參與的客戶端,這就像是給每個學習者發放同樣的教材。接下來進入本地訓練階段,各個客戶端會使用自己的本地資料來訓練這個模型,每個參與者都根據自己的資料特性來改進模型。然後是參數回傳階段,各客戶端會將訓練後的模型參數上傳回中央伺服器,但重要的是只傳送參數而不傳送原始資料,這樣就能保護資料隱私。最後是模型聚合階段,中央伺服器會整合所有收到的參數,創造出一個融合了所有參與者學習成果的新模型,然後這個新模型又可以作為下一輪訓練的基礎,形成持續改進的循環。
透過這樣的機制,聯邦學習不僅解決了資料隱私的問題,也讓原本因為資料分散而無法進行大規模訓練的情況成為可能,為AI技術的應用開啟了更廣闊的可能性。
7. AI 治理與倫理

隨著人工智慧技術在我們生活中扮演越來越重要的角色,從智慧型手機的語音助理到自動駕駛汽車,從醫療診斷系統到金融風險評估,AI 已經深入到社會的各個層面。然而,技術的快速發展也帶來了前所未有的挑戰和風險。我們不能只關注 AI 技術能夠做什麼,更需要思考它應該如何被使用,以及如何確保這些強大的技術能夠以符合人類價值和社會利益的方式來運作。這就是為什麼 AI 治理與倫理成為當今最重要的議題之一。
7.1 AI 透明度
當我們談到 AI 透明度時,指的是 AI 決策過程的可解釋性和可理解性。想像一下,如果你去銀行申請貸款,銀行使用 AI 系統來決定是否批准你的申請,但是當你被拒絕時,銀行卻無法告訴你具體的原因,只說「AI 系統認為你不符合條件」。這種情況就是缺乏透明度的典型例子。
在現實世界中,許多 AI 系統都面臨著「黑箱」問題。這些系統雖然能夠產生準確的預測結果,但它們的決策過程往往非常複雜,連開發者本身都難以完全理解。深度學習神經網路就是一個典型的例子,它可能包含數百萬個參數和複雜的非線性關係,使得追蹤其決策邏輯變得極其困難。
然而,在許多重要的應用場景中,我們不能僅僅滿足於「AI 說對了」這樣的結果。特別是在醫療診斷、司法判決、金融信貸等攸關人們基本權益的領域,決策的透明度變得至關重要。醫生需要理解 AI 診斷系統的推理過程來驗證其合理性,法官需要了解風險評估系統的判斷依據,銀行客戶有權知道貸款被拒絕的具體原因。
因此,AI 透明度不僅是技術問題,更是建立社會信任的基礎。當人們能夠理解 AI 系統的決策邏輯時,他們更容易接受和信任這些系統的判斷,也更能夠在必要時對其進行挑戰和糾正。這也推動了可解釋 AI(Explainable AI,XAI)領域的發展,致力於開發能夠解釋自身決策過程的 AI 系統。
7.2 負責任 AI
建立 AI 透明度只是確保 AI 系統可靠性的第一步,更重要的是確保這些系統能夠以負責任的方式運作。負責任 AI 的概念涵蓋了多個重要層面,其中偏見緩解和責任歸屬是兩個核心要素。
偏見緩解是確保 AI 不對特定群體產生不公平結果的關鍵機制。AI 系統的偏見通常來自於訓練資料中隱含的社會偏見。例如,如果一個招聘 AI 系統是用過去的招聘紀錄來訓練的,而這些紀錄反映了歷史上存在的性別或種族歧視,那麼 AI 系統就可能學習並延續這些偏見,在未來的招聘決策中對某些群體產生系統性的不公平對待。
類似的問題也出現在其他領域。刑事司法系統中的風險評估工具可能對特定種族群體產生偏見,導致不公平的判決結果。醫療 AI 系統如果主要用某一族群的資料來訓練,可能在診斷其他族群的疾病時表現較差。金融 AI 系統可能因為歷史資料的限制而對女性或少數群體的信用評估產生偏見。
責任歸屬是負責任 AI 的另一個核心原則,明確指出 AI 系統行為的主要責任歸屬於開發者、部署者和管理者等相關人員。這個原則特別重要,因為它防止了「演算法責任稀釋」的問題。當 AI 系統出現錯誤或造成損害時,相關責任方不能簡單地將責任推給「AI 自己的判斷」,而必須承擔相應的法律和道德責任。
這種責任歸屬機制確保了人類在 AI 決策鏈中始終保持最終控制權和責任感。它要求 AI 系統的開發者在設計階段就要考慮潛在的風險和後果,部署者需要確保系統在適當的環境中使用,管理者則需要建立有效的監督和糾錯機制。
7.3 國際合作的重要性
隨著 AI 技術影響力的擴大,我們逐漸意識到 AI 治理不能僅靠單一國家或組織的努力,而需要全球範圍內的協調合作。AI 技術的無國界特性和其潛在的全球性影響,使得國際合作成為有效治理的必要條件。
國際合作在 AI 治理中的重要性首先體現在統一 AI 發展標準的需求上。目前,不同國家和地區對於 AI 系統的安全性、可靠性和倫理性要求存在差異,這不僅增加了跨國 AI 服務的複雜性,也可能導致「標準競次」的問題,即各國為了吸引 AI 產業而放寬標準。通過國際合作建立統一或相容的標準框架,可以確保 AI 技術在全球範圍內都能滿足基本的安全和倫理要求。
其次,國際合作有助於避免 AI 技術的濫用。某些 AI 技術如果被惡意使用,可能對全球安全和穩定造成威脅。例如,自主武器系統的開發、大規模監控技術的擴散,或者用於網路攻擊的 AI 工具等。這些威脅往往具有跨國性質,需要國際社會的共同努力來預防和應對。
最後,國際合作也能促進 AI 技術的轉移和共享,讓更多國家和地區能夠受益於 AI 發展的成果。這種合作不僅有助於縮小全球數位落差,也能夠集合世界各國的智慧和資源來解決人類面臨的共同挑戰,如氣候變化、疾病防治、貧困消除等全球性問題。
7.4 歐盟人工智慧法 (AI Act)
在國際 AI 治理的實踐中,歐盟人工智慧法(AI Act)是一個具有重大意義的里程碑。這部於 2021 年提出並在後續年份中不斷完善的法律,是全球首部全面性的 AI 監管法規,為世界各國的 AI 治理提供了重要的參考模式。
風險分級制度是 AI Act 的核心創新,它摒棄了「一刀切」的監管方式,而是根據 AI 應用可能造成的風險程度來制定相應的監管要求。這種分級方式既能確保高風險應用得到嚴格管控,又能避免過度監管阻礙技術創新,體現了監管的精準性和靈活性。
不可接受風險類別代表了歐盟認為應該完全禁止的 AI 應用。社會信用評分系統是其中最受關注的例子,特別是那些基於年齡、缺陷、種族等個人特徵來評定社會價值的系統。這類系統被認為根本性地違反了人類尊嚴和基本人權原則,無論技術多麼先進都不應該被允許。另一個被禁止的應用是公眾場所的遠程生物辨識系統,特別是用於執法目的的即時人臉識別系統。雖然這些技術在安全防護方面可能有其效用,但歐盟認為其對隱私權和行動自由的威脅過於嚴重,因此選擇了全面禁止的立場。
高風險類別涵蓋了那些可能對人身安全、健康或基本權利造成重大負面影響的 AI 應用。自動駕駛車輛是一個典型例子,因為系統故障可能直接威脅到駕駛員、乘客和其他道路使用者的生命安全。醫療診斷系統同樣被歸類為高風險應用,因為錯誤的診斷可能導致患者接受不當治療或錯過最佳治療時機。對於這些高風險應用,AI Act 要求進行嚴格的風險評估、合規性測試、人工監督,以及持續的監控和報告。
有限風險類別主要涉及那些需要向使用者披露其 AI 特性的系統。這類系統的風險相對較低,但仍需要確保使用者知道他們正在與 AI 互動,而不是與人類互動。例如,聊天機器人必須明確標示其 AI 身分,深度偽造內容必須清楚標註其人工生成的性質。
小或低風險類別包括了絕大多數的日常 AI 應用,如推薦系統、垃圾郵件過濾器、基本的客戶服務機器人等。這些應用的監管要求相對寬鬆,主要依賴行業自律和自願性的倫理準則來確保合規。
7.5 AI 安全風險
在理解了 AI 治理的制度框架後,我們需要深入探討 AI 技術可能帶來的具體安全風險。這些風險不僅是技術問題,更是可能影響整個社會穩定和公眾信任的重大挑戰。
Deepfake 與假訊息問題充分體現了 AI 技術的雙刃劍特性。AI 能夠生成具有真實外觀的虛假影像與語音,這項技術本身具有許多正當和創新的用途。在娛樂產業中,它可以用來製作電影特效,讓已故演員「復活」參與新作品的拍攝。在教育領域,它可以創造歷史人物的虛擬形象來進行互動式教學。在醫療復健中,它可以幫助失聲患者重建個人化的語音。
然而,同樣的技術也可能被惡意使用,對社會與輿論造成嚴重威脅。在政治領域,Deepfake 技術可能被用來製作政治人物的虛假言論,影響選舉結果或破壞國際關係。在社會層面,它可能被用來製作非經同意的不當內容,對個人名譽和心理健康造成嚴重傷害。在商業領域,它可能被用於詐騙和股市操縱,透過偽造企業高管的言論來影響股價。
更深層的威脅在於,當 Deepfake 技術變得普及且容易使用時,可能會導致整個社會對真實資訊的信任度下降。人們可能開始懷疑所有的影像和音頻內容,即使是真實的資訊也可能被質疑為「可能是假的」。這種現象被稱為「真相衰變」或「資訊末日」,它不僅會破壞公眾討論的基礎,也會削弱民主社會中事實驗證和理性辯論的可能性。
面對這些挑戰,我們需要從多個層面來建構防護機制。在技術層面,需要持續發展和改進 Deepfake 檢測技術,同時探索數位浮水印、區塊鏈驗證等內容真實性驗證方法。在法律層面,需要建立明確的法規來規範生成式 AI 技術的使用,並對惡意使用行為制定相應的懲罰措施。在教育層面,需要大幅提升公眾的媒體素養和批判思維能力,讓人們能夠更好地識別和應對假訊息。在社會層面,需要建立可信的資訊驗證機制和平台,讓公眾能夠便利地查證資訊的真實性。
小結
AI 治理與倫理是人工智慧發展過程中不可迴避的重要議題。從確保 AI 決策過程的透明度,到建立負責任的 AI 開發和應用框架;從推動國際社會的協調合作,到制定具體可行的法規制度;從識別和防範各種安全風險,到建構社會整體的應對能力,這些都是確保 AI 技術能夠真正造福人類社會的必要條件。
作為 AI 應用規劃師,我們不僅需要掌握技術層面的知識和技能,更需要具備深刻的倫理意識和社會責任感。在規劃和實施 AI 應用方案時,我們必須始終考慮技術對社會的潛在影響,確保我們的工作符合倫理標準和法律要求。只有這樣,我們才能真正發揮 AI 技術的正面價值,同時最大程度地避免其可能帶來的負面後果,為建構一個更加智慧、公平和安全的社會做出貢獻。
8 統計學習與分析方法:從基礎到實務的完整指南

在現今數位時代,資料分析已成為企業決策的重要依據。無論您是初學者還是想要深化理解的學習者,掌握統計學習與分析方法都是不可或缺的技能。本文將從最基礎的統計概念開始,循序漸進地帶您了解如何有效地處理和分析資料,並透過視覺化方法來呈現分析結果。
8.1 統計基礎概念:理解資料的核心特性
要進行有效的資料分析,我們首先必須了解資料的基本特性。就像醫生診斷病人需要先測量體溫、血壓等基本生理指標一樣,分析資料也需要先掌握幾個重要的統計指標。這些指標主要分為兩大類:集中趨勢衡量和變異程度指標。
集中趨勢衡量:找出資料的「中心點」
集中趨勢衡量就像是在一群人中找出「代表性人物」,它告訴我們資料大致集中在哪個數值附近。最常用的三種方法包括平均數(Mean)、中位數(Median)和眾數(Mode)。平均數是將所有數值加總後除以資料筆數,這是我們最熟悉的「平均值」概念。中位數則是將資料由小到大排列後,位於正中間的那個數值,它不會被極端值影響。眾數是資料中出現次數最多的數值,在了解消費者偏好或產品銷售狀況時特別有用。
需要特別注意的是,標準差(Standard Deviation)並不屬於集中趨勢衡量,而是屬於下一個要討論的變異程度指標。這個區別很重要,因為它們分別回答了不同的問題:集中趨勢告訴我們「資料集中在哪裡」,而變異程度則告訴我們「資料分散的程度如何」。
變異程度指標:評估資料的穩定性
了解了資料的中心位置後,接下來要關心的是資料的分散程度。標準差是最重要的變異程度指標,它衡量資料點與平均數之間的平均距離。在實際應用中,標準差具有重要的管理意義。例如在品質管理領域,當標準差顯著偏大時,這表示生產過程波動很大,產品品質不穩定。這就像是一個射箭手,如果每次射出的箭都落在靶心附近很小的範圍內,代表技術穩定;但如果箭散布在很大的範圍,就表示技術不夠穩定。
8.2 特徵選取技術:從眾多變數中找出關鍵因子
當我們面對一個包含數十個甚至數百個變數的資料集時,就像面對一個裝滿不同物品的倉庫,我們需要找出其中最有價值的物品。特徵選取技術就是幫助我們從眾多變數中挑選出最重要、最具預測能力的變數的方法。
常見的特徵選取方法
在眾多特徵選取方法中,皮爾森積差相關分析是最基礎也最常用的方法之一。它衡量兩個變數之間的線性相關程度,相關係數介於-1到1之間。當係數接近1時,表示兩個變數有很強的正相關;接近-1時表示強負相關;接近0則表示沒有線性關係。
除了相關分析外,主成分分析(PCA)是另一個重要的技術。PCA不僅能夠進行特徵選取,還能同時進行降維和特徵提取。它的工作原理是將原本複雜的高維度資料轉換成較低維度的資料,同時保留大部分的資訊內容。這就像是將一個立體的雕塑用平面攝影的方式呈現,雖然失去了一些立體感,但仍能保留主要的視覺特徵。
隨機森林(Random Forest)則提供了另一種特徵選取的思路。這個方法不是透過數學計算來評估變數重要性,而是透過機器學習演算法來提供特徵重要性評分。它會建立多個決策樹,然後統計每個變數在這些樹中的貢獻程度,從而判斷變數的重要性。
需要注意的非特徵選取技術
值得注意的是,並非所有的統計方法都是特徵選取技術。迴歸分析雖然是資料分析中的重要工具,但它主要是一種預測建模技術,而不是專門的特徵選取方法。迴歸分析的目的是建立變數之間的關係模型,用來預測未知的結果,這與特徵選取的目標有所不同。
8.3 視覺化方法:讓數據說話的藝術
統計分析的結果如果只是一堆數字,往往難以讓人快速理解。視覺化方法就像是資料的「翻譯員」,將複雜的數字轉換成直觀的圖形,讓人能夠一眼看出資料的特性和模式。
能夠判斷中心趨勢的視覺化方法
在眾多視覺化方法中,有些特別適合用來判斷資料的中心趨勢。散點圖是最直觀的方法之一,它將每個資料點在圖上標示出來,讓我們能夠直接看出資料的分布情況和集中位置。箱型圖(Box Plot)則是另一個強大的工具,它不僅能顯示中位數的位置,還能同時呈現資料的四分位數、極值和異常值,提供了資料分布的完整圖像。
直方圖則以長條圖的形式呈現資料的頻率分布,讓我們能夠清楚看出資料在不同數值區間的分布密度,進而判斷資料的中心趨勢和分布形狀。
無法判斷中心趨勢的視覺化方法
然而,並非所有的視覺化方法都適合用來判斷中心趨勢。雷達圖(Radar Chart)雖然在某些情況下很有用,但它主要是用來比較多個項目在不同維度上的表現,而不是用來判斷單一變數的中心趨勢。雷達圖更適合用來做多變數的比較分析,例如比較不同產品在價格、品質、服務等多個面向的表現。
8.4 資料品質與前處理的重要性:成功分析的基石
經過前面章節對統計方法和視覺化技術的介紹,我們可能會以為掌握這些技術就足以進行有效的資料分析。然而,實際上資料的品質和前處理工作往往決定了整個分析專案的成敗。正如建築物的品質取決於地基是否穩固,資料分析的成果也深深依賴於資料本身的品質。
CRISP-DM:業界標準的分析流程
在資料分析領域,CRISP-DM(Cross-Industry Standard Process for Data Mining)是一個跨產業通用的資料探勘標準處理流程。這個流程強調了資料前處理在整個分析過程中的重要地位。CRISP-DM將資料探勘專案分為六個階段,其中資料理解和資料準備就佔了整個專案時間的大部分,這說明了資料品質控制的重要性。
資料前處理的關鍵作用
高品質的資料能夠顯著提升後續模型訓練與預測效果,這是資料探勘成功與否的關鍵。想像一下,如果我們用髒污的鏡頭拍照,即使相機再高級,拍出來的照片品質也會大打折扣。同樣地,如果原始資料存在錯誤、缺失或不一致的問題,再先進的分析技術也無法產生可靠的結果。
因此,在進行任何複雜的統計分析或機器學習之前,我們必須先投入充分的時間和精力來清理和準備資料。這包括處理缺失值、識別和處理異常值、統一資料格式、以及確保資料的一致性和完整性。
屬性重要性的判斷依據
在資料前處理過程中,判斷哪些屬性重要、哪些可以捨棄,是一個需要謹慎考慮的問題。這個判斷通常依靠兩個重要來源:專家的經驗與直覺,以及機器學習演算法中的屬性重要性分析。專家憑藉對業務領域的深度了解,能夠識別出在理論上重要的變數;而機器學習演算法則能夠從資料中發現我們可能忽略的重要模式。
資料精簡的平衡考量
最後,我們需要認識到資料精簡是一個需要平衡的過程。透過特徵選取和資料簡化,我們可能會有些微的準確度損失,但同時能大幅提升分析效率。這就像是在地圖上選擇適當的比例尺:太詳細會讓地圖難以使用,太簡化又可能遺漏重要資訊。關鍵在於根據分析目標找到最適合的平衡點。
小結
統計學習與分析方法是一個既深且廣的領域,從基礎的統計概念到複雜的特徵選取技術,從直觀的視覺化呈現到嚴謹的資料前處理流程,每個環節都環環相扣,共同構築了現代資料科學的基礎架構。掌握這些方法不僅能幫助我們更好地理解資料,更能讓我們在面對複雜的商業問題時,有系統地找出有效的解決方案。記住,好的分析始於好的資料,而好的資料來自於細心的前處理工作。只有在紮實的基礎上,我們才能運用各種統計方法和視覺化技術,將隱藏在資料中的知識和洞察挖掘出來。
9 統計學習 AI 應用實例:從垃圾郵件過濾談起

當我們討論人工智慧(AI)的時候,很多人腦海中可能會浮現機器人或是會下圍棋的程式。但其實在我們的日常生活中,有一種叫做「統計學習 AI」的技術,早就默默地在幫我們處理各種問題了。這種技術的核心概念是透過大量的數據來學習規律,然後用這些學到的規律來預測或分類新的資料。
統計學習 AI 最大的特色是它會從過去的經驗中學習,就像人類會從過去的經驗中學到什麼是好的、什麼是壞的一樣。當我們給它看夠多的例子後,它就能自己找出這些例子之間的共同特徵,並且運用這些特徵來判斷新遇到的情況。這種學習方式讓統計學習 AI 在處理大量重複性工作時特別有效,尤其是需要分類或預測的任務。
代表應用:Spam Filter 垃圾郵件過濾系統
說到統計學習 AI 最成功的應用例子,垃圾郵件過濾系統(Spam Filter)絕對是其中的經典代表。每天我們的電子郵件信箱都會收到各式各樣的郵件,其中有些是我們真正需要的重要信件,但也有不少是廣告信、詐騙信或其他我們不想看到的垃圾郵件。如果要靠人工一封一封去檢查和分類,那將會是一個非常耗時且不切實際的工作。
垃圾郵件過濾系統的運作原理其實很簡單,但卻非常聰明。首先,系統會收集大量已經被標記為「垃圾郵件」和「正常郵件」的範例。接著,它會分析這些郵件的各種特徵,比如說郵件的標題通常包含哪些關鍵字、寄件者的網域名稱、郵件內容的用詞習慣、是否包含可疑的連結等等。透過統計分析,系統會學習到垃圾郵件和正常郵件在這些特徵上的差異。
經過訓練之後,當新的郵件送達時,過濾系統就會檢查這封郵件的各種特徵,然後根據之前學到的規律來計算這封郵件是垃圾郵件的機率。如果機率超過某個門檻,系統就會自動將這封郵件分類到垃圾郵件資料夾。這整個過程都是自動化的,不需要人工介入,而且隨著處理的郵件越來越多,系統的判斷準確度也會越來越高。
非統計學習 AI 的其他典型例子
為了讓大家更清楚統計學習 AI 的特色,我們來看看其他幾種不是使用統計學習方法的 AI 系統。這些系統雖然同樣很聰明,但它們的運作原理和學習方式都跟統計學習 AI 有很大的不同。
AlphaGo:強化學習的代表作
AlphaGo 是 Google DeepMind 開發的圍棋程式,它在 2016 年擊敗了世界圍棋冠軍李世乭,震驚了全世界。不過,AlphaGo 使用的技術叫做「強化學習」(Reinforcement Learning),這跟統計學習有著本質上的差異。強化學習的概念比較像是教小孩子學走路,系統會透過不斷的嘗試和錯誤來學習,每當它做出好的決定時就會得到獎勵,做出壞的決定時就會受到懲罰。
AlphaGo 透過跟自己對弈數百萬局來學習圍棋策略,它不是單純地從大量棋譜中找出統計規律,而是透過實際的對弈經驗來學習什麼樣的下法會帶來勝利。這種學習方式讓它能夠發現一些連人類職業棋手都沒想到的創新下法,展現出了超越傳統統計學習方法的能力。
MYCIN:符號邏輯專家系統的經典
MYCIN 是 1970 年代史丹佛大學開發的醫療診斷專家系統,它的目標是協助醫生診斷血液感染疾病並建議適當的抗生素治療。MYCIN 使用的技術叫做「符號邏輯」,這種方法是將專家的知識和經驗編寫成一系列的邏輯規則,然後透過邏輯推理來得出結論。
舉例來說,MYCIN 會包含像是「如果病人有發燒症狀,而且血液檢查顯示白血球數量異常,那麼可能是細菌感染」這樣的規則。當面對新的病例時,系統會根據病人的症狀和檢查結果,按照預先設定的邏輯規則一步步推理,最終得出診斷建議。這種方法跟統計學習完全不同,它不需要大量的訓練資料,而是直接將專家的知識轉化為電腦可以理解的邏輯規則。
Siri:多技術整合的現代語音助理
最後,我們來談談大家都很熟悉的 Siri。Siri 是蘋果公司開發的語音助理,它能夠理解我們說的話並且做出適當的回應。不過,Siri 並不是單純使用某一種 AI 技術,而是結合了多種不同的技術才能完成它的工作。
當我們對 Siri 說話時,它首先需要將我們的語音轉換成文字,這個過程使用的是語音識別技術。接著,它要理解我們說的話是什麼意思,這需要用到自然語言處理技術。然後,根據我們的要求,它可能需要搜尋資訊、設定提醒、播放音樂等等,這些功能又涉及到不同的技術模組。最後,它還要將回應轉換成語音說給我們聽,這又用到了語音合成技術。
雖然 Siri 的某些功能可能會用到統計學習的方法,比如說語音識別和自然語言理解,但它的整體架構是一個複雜的系統整合,包含了統計學習、規則推理、資料庫查詢等多種技術。這讓 Siri 跟單純的統計學習 AI 有很大的不同。
小結:統計學習 AI 的獨特價值
透過這些例子的比較,我們可以清楚地看出統計學習 AI 的特色和價值。它擅長處理需要從大量資料中找出規律的問題,像垃圾郵件過濾這樣的應用就是一個完美的例子。相對於需要專家知識的符號邏輯系統,或是需要透過試錯學習的強化學習系統,統計學習 AI 提供了一種相對簡單但非常有效的解決方案。
在今天的數位時代,我們每天都會產生大量的資料,而統計學習 AI 正是處理這些資料的最佳工具之一。從推薦系統到圖像識別,從信用卡詐騙檢測到股價預測,統計學習 AI 在各個領域都發揮著重要的作用,默默地讓我們的生活變得更加便利和安全。
10. 異常檢測

異常檢測是人工智慧領域中一個重要的技術,它的主要目標是要找出資料中那些不正常、不符合預期的部分。想像一下,如果我們每天都在觀察某個現象,大部分時候都會看到類似的模式,但偶爾會出現一些奇怪的情況,這些奇怪的情況就是我們要找的「異常」。異常檢測技術就像是一個敏銳的觀察者,能夠自動識別出這些不尋常的狀況。
在現實生活中,異常檢測的應用非常廣泛。比如說,銀行需要檢測信用卡是否被盜刷,網路安全公司要找出駭客的攻擊行為,製造業需要發現設備故障的徵兆,醫療機構要識別病人的異常生理指標等等。這些應用場景雖然不同,但都有一個共同點:我們需要從大量的正常資料中,快速且準確地找出那些異常的狀況。
為了更好地理解和處理不同性質的異常情況,研究人員將異常分成了幾個不同的類型。每種類型的異常都有其特殊的特徵和檢測方法,了解這些分類有助於我們選擇最適合的檢測技術。接下來,我們將詳細探討這四種主要的異常類型。
10.1 異常類型
點異常(Point Anomaly)
點異常是最直觀也是最常見的一種異常類型。當我們說某個資料點是異常的,通常指的就是點異常。這種異常的特徵是單一的資料點明顯偏離了正常的資料分布範圍或預期的參數值。
舉個簡單的例子,假設我們在監控一個網站的每日訪客數量,正常情況下每天大約有1000到1500個訪客。如果某一天突然出現了10000個訪客,這就是一個明顯的點異常。這個異常值可能代表著網站受到了異常的關注(比如被新聞報導),或者遭受了某種攻擊。
在技術實作上,檢測點異常通常會使用統計方法,比如計算每個資料點與平均值的距離,或者使用Z-score來判斷資料點是否超出了正常範圍。機器學習方法如One-Class SVM、Isolation Forest等也常被用來檢測這類異常。點異常的檢測相對簡單,但在處理高維度資料或複雜的資料分布時,仍然需要選擇適當的方法。
情境異常(Contextual Anomaly)
情境異常比點異常更加複雜,因為它需要考慮資料出現的背景或環境。同一個資料值在不同的情境下可能是正常的,也可能是異常的。這種異常通常與時間、地點或其他條件因素有關。
最典型的例子就是氣溫資料。在台灣,如果夏天7月份的氣溫是35度,這是完全正常的;但如果在冬天12月份出現35度的氣溫,這就是一個明顯的情境異常。同樣的溫度值,在不同的時間背景下有著完全不同的意義。
另一個例子是網路流量監控。在工作日的上午9點,網路流量很高是正常現象,因為大家都在上班使用網路;但如果在凌晨3點出現同樣高的流量,就可能是異常情況,需要進一步調查是否有異常活動發生。
檢測情境異常需要建立更複雜的模型,這些模型必須能夠理解和學習不同情境下的正常行為模式。時間序列分析、條件機率模型和基於規則的系統都是常用的技術手段。
集體異常(Collective Anomaly)
集體異常指的是多個資料點共同形成的異常模式。單獨看每個資料點可能都是正常的,但當這些點組合在一起時,就形成了一個異常的模式或行為。這種異常類型在序列資料或網路資料中特別常見。
舉例來說,在股票交易中,單筆小額交易都是正常的,但如果在短時間內出現大量的小額賣出交易,而且這些交易來自不同的帳戶,這個集體行為就可能是異常的,可能代表有人在進行大規模的股票操作。每筆交易本身沒有問題,但整體模式是可疑的。
在網路安全領域,一個駭客可能會進行多次小規模的嘗試登入,每次嘗試單獨看起來都很正常,但將這些嘗試組合起來看,就會發現這是一個暴力破解攻擊的模式。
檢測集體異常需要分析資料之間的關係和模式,常用的技術包括序列模式挖掘、圖形分析和基於距離的聚類方法。這類檢測通常比點異常檢測需要更多的計算資源和更複雜的算法。
系統性異常(Systematic Anomaly)
系統性異常是最複雜的一種異常類型,它表示整個系統層面出現了持續性的異常行為。這種異常不是偶發的,而是在系統中根深蒂固的問題,可能會影響系統的整體運作和表現。
在製造業中,如果一條生產線的產品品質逐漸下降,雖然每天的下降幅度很小,不容易被發現,但長期累積下來就會造成嚴重的品質問題。這種逐漸惡化的趨勢就是系統性異常的典型表現。
在金融系統中,如果某個交易系統的處理速度在幾個月內逐漸變慢,雖然每天的變化微小,但這種持續的性能下降可能預示著系統即將出現重大故障。這種異常需要長期的監控和分析才能發現。
檢測系統性異常需要長期的資料累積和趨勢分析。常用的技術包括時間序列分解、變點檢測(Change Point Detection)和長期趨勢分析。這類檢測對於預防性維護和系統優化具有重要意義。
小結
異常檢測中的四種主要異常類型各有其特點和應用場景。點異常處理的是單個明顯偏離的資料點,檢測相對直接;情境異常需要考慮資料的背景條件,檢測更加複雜;集體異常關注的是多個資料點形成的異常模式,需要分析資料間的關係;系統性異常則是最難檢測的,因為它涉及整個系統層面的持續性問題。
在實際應用中,一個完整的異常檢測系統往往需要能夠處理多種類型的異常。選擇適當的檢測方法和技術,需要根據具體的應用場景、資料特性和業務需求來決定。隨著資料量的增加和應用場景的複雜化,異常檢測技術也在不斷evolving,為各個領域提供更加精準和及時的異常識別能力。