[GCP AI 教學] 如何在 GCP 建立 AI 包含 GPU 的環境?

一、前言,在 GCP 建立 AI 開發環境的各種方法

這裡說的自己專屬的環境,不包含現成的任何模型例如 Gemini 喔!

快速回答,有三個方法:Compute Engine、Vertex AI 和 Marketplace

而且有六種環境

1.Compute Engine VM 使用 GPU 自己裝開發工具

2.Compute Engine VM 使用 GPU 搭配 Google 配好的環境

3.Vertex AI 的舊版 VM

4.Vertex AI 使用者自己管理的 Notebook 環境

5.Vertex AI Google 代為管理的 Notebook 環境

6. GCP Marketplace 上各家廠商提供的 GPU 環境

先假設我們要用的 GPU 是 Nvidia Tesla V100

我們先一口氣釘選所有會用到的服務:

假設您已經在 GCP 的首頁

https://console.cloud.google.com/

點擊左上角三條線 => 解決方案 => 所有產品

點擊運算,釘選 Compute Engine

點擊人工智慧,釘選 Vertex AI

點擊右上角的 Marketplace

你應該會看到像這樣:

二、使用 Compute Engine 建立 AI 開發環境

進入 Compute Engine,建立執行個體,就是開 VM 的意思。

有一點要注意,就是 GPU 的型號很多種,不是每個 Region、每個 Zone 都有一樣的 GPU 可以用,請查詢下面這份文件:

https://cloud.google.com/compute/docs/gpus/gpu-regions-zones

像是 V100 GPU,在台灣只有 asia-east1-c 有而已。

選好就會看到 V100

然後選你想要的主機規格

這是說目前你開的是「純」的 Debian 作業系統,沒有裝任何 AI 開發工具的環境,如果你可以自己裝,就不用理它。

如果你想要它先幫你弄好 AI 環境,點擊切換映象檔。

點了之後,選擇你想要的環境。

你可以再展開看到更多環境。

下面有硬碟給你選,通常要選大一點,IOPS 才會高。

如果你主機是要從外部去連,像是從你的辦公室、你家或手機,建議設定防火牆只允許你的 IP 位址去連。

我建議的設定方法是,你就把主機名稱設定在網路標記。

然後去防火牆的地方,設定允許連線的 Port,來源只允許你的 IP,這樣才能避免駭客入侵。詳細操作可以參考這份文件

其他選項看你的需求,如果沒有就按下建立,環境就開好了。

三、使用 Vertex AI 建立 AI 開發環境

主選單 => Vertex AI => Workbench

第一種環境,建立預先安裝好 AI 環境的 VM

這裡有三種環境,第一種是其實建立 Compute Engine 的 VM,不過也會幫你安裝一些工具。

新增執行個體

選擇 Region 和 Zone,和 AI 開發環境,要注意它都以新版為主,太舊的都找不到。

選規格

其他選項,沒問題按下建立即可。

第二種環境,建立使用者管理的 Notebook

啟用 Notebook API

點擊使用者自行管理的筆記本

跟上述類似,選好地區、環境、GPU,而 GPU 的型號要去進階選項才能挑選。

網路標記

機器類型,改成你要的 GPU,沒問題就可以按下建立。

方法三、建立代管的筆記本

下圖看到的錯誤是,代管的 Notebook,也不是每一個 Region 都有,像台灣 asia-east1,你要先看這份文件,確認是否支援:

https://cloud.google.com/vertex-ai/docs/general/locations#managed-notebooks-locations

然後再查詢下面這份文件,看看有沒有你要的 GPU:

https://cloud.google.com/compute/docs/gpus/gpu-regions-zones

因為台灣沒有代管的 Notebook,我先挑香港。

結果機器類型只有 T4

我再回去查文件,只有 europe-west4 才有 V100.

設定Region和網路標記再往下

它有個貼心的功能,怕你主機開著沒在用會燒錢,你可以設定主機閒置多久之後自動關機。

沒問題再按下建立即可。

三、從 Marketplace 建立第三方提供的 AI 開發環境

舉例來說,我要用 GPU 的話,可以直接在搜尋框輸入 Nvidia。

它秀出各種環境給你參考

你可以先按定價看看它可能會收多少錢,有沒有額外授權費等等。

目前選的看起來只有主機和GPU的費用。

因為你是在 GCP 上建立第三方的環境,要接受一些條款。

啟用一些 API,因為它可能會跟 GCP 的環境互動。

然後它報錯了,說配額不夠

點擊配額頁面會開新視窗,增加配額

回到原頁面

下方還說要使用 Service Account

我們就隨便取名一個 Service Account

選到你要用的 GPU

網路部分看你有沒有要特別設定的,沒有按下部署即可。

以上就是在三個地方建立 AI 開發環境的 6 種方法,給大家參考~

Table of Contents
返回頂端