資料處理 - 東東 GCP 教學 - GCP 實戰講師

[BigQuery 教學] 雲端界陳浩南 – BigQuery 是什麼？功能、組成元件、特色和優勢完整介紹

東東 — Sat, 23 Nov 2024 09:50:20 +0000

如果你想看 BigQuery 影片介紹，可以直接捲到最下面喔！

如果用一句話講完 BigQuery，就是你只要下一個 SQL 分析語法，就可以叫雲端上一大堆機器出來幫你分析資料。就像陳浩南一聲令下，小弟瞬間集結完成，幫你「橋事情」。

Google BigQuery 是一種由 Google Cloud 提供的無伺服器資料倉儲解決方案，專為大規模資料處理設計。

你可以將它視為資料分析的高速引擎，幫助你快速從海量資料中找出洞察。

重點是你只要使用通用的 SQL 語法，就可以馬上使用，完全不用學習新的技術，超級方便。

接下來，我們將深入介紹它的功能、組成元件、特色以及使用它的好處。

一、BigQuery 的基本介紹

BigQuery 是一種基於雲端的企業級資料倉儲服務，它可以快速處理結構化和非結構化數據，並提供即時查詢功能。它主要針對需要分析大量數據的組織設計，例如電子商務平台、金融服務公司等。

二、BigQuery 的核心功能

(一) 即時查詢與高效能處理

BigQuery 的設計使它能在幾秒鐘內處理數百億行數據，這對於需要快速決策的企業來說至關重要。它的分散式架構允許你同時查詢和寫入資料，完全不需要等待。

(二) 支援大規模資料分析

無論是幾百 GB 的數據，還是幾 PB 的數據，BigQuery 都能輕鬆處理。它的擴展性確保了隨著你的業務需求增長，你的資料分析能力也能跟上。

(三) 與其他 GCP 工具的整合

BigQuery 可與 Google Cloud 其他工具無縫整合，例如 Dataflow、Pub/Sub 和 Looker (或 Looker Studio)，讓你能建立完整的數據管道和視覺化報告。

三、BigQuery 的組成元件

(一) Dataset：資料的邏輯分組

Dataset 是 BigQuery 的核心概念之一。你可以將 Dataset 理解為數據的邏輯容器，用於組織和管理 Tables 與 Views。

每個 Dataset 都屬於一個特定的專案，並可以設定資料位置、存取權限與加密選項。

Dataset 的特點：

1. 幫助你有效組織資料（例如將不同部門的數據分開存放）。

2. 支援跨 Dataset 查詢，方便資料整合。

3. 具有細緻的權限管理，確保數據安全。

(二) Table：儲存結構化資料的基本單位

Table 是 BigQuery 中存放數據的主要單位。每張 Table 包含行與列，類似於傳統的關聯式資料表，但支持更大規模的資料。

BigQuery 支持的 Table 類型

1. 永久表（Permanent Table）

一般的資料表，存放數據直到你手動刪除。

2. 臨時表（Temporary Table）

這些表僅在查詢執行期間存在，適合處理臨時性的中間結果，你每次查詢永久表的結果，它都會暫存 24 小時。

3. 分區表（Partitioned Table）

這種表根據時間（例如日期）、數字範圍或數據欄位進行分區，能有效提升查詢效能並降低成本。

4. 分片表（Sharded Table）

通過表名結構（如 `table_202311`）分片，雖然靈活，但不如分區表高效。

(三) View：基於查詢語句的虛擬表

View 是基於 SQL 查詢創建的虛擬表，讓你能透過查詢結果像操作實際表一樣進行使用。

BigQuery 支持的 View 類型：

1. 標準 View（Standard View）

基於靜態查詢語句，直接返回當前的查詢結果。

2. 授權 View（Authorized View）

允許你控制使用者對基礎表的存取權限。授權 View 是在敏感數據共享中非常實用的工具。

3. 物化 View（Materialized View）

將查詢結果存儲起來，從而加速重複查詢的性能，同時降低計算資源的使用。

View 的優勢：

1. 簡化複雜查詢，減少重複 SQL 撰寫的麻煩。

2. 可作為權限管理的工具，限制對底層數據的存取，因為它能透過很靈活的語法，從各個表格抓取和過濾資料，給有適當權限的人看。

3. 提高效能，特別是使用物化 View 時。

四、BigQuery 的特色

(一) 無伺服器架構的便利性

BigQuery 不需要你配置伺服器或管理基礎設施，讓你能將精力集中在數據分析上，而非繁瑣的運維工作。

光是這一點，就完全屌打巿面上所有資料倉儲和分析工具，像是 AWS 和 Azure 還要開機器，主機效能受限於你開的規格，BigQuery 完全不問規格，自動依照你的資料量瞬間呼叫機器幫你運算。

(二) Pay-as-you-go 計費模式

BigQuery 採用按 Query 量 (處理的資料量) 計費，確保你只需為實際使用的資源付費，這對於中小型企業尤其有吸引力。

不過也要注意，因為BigQuery 太方便了，你很容易就不小心 Query 太多資料，未來會再介紹節省 BigQuery 費用的方法。

(三) 跨地區資料分析的優勢

BigQuery 支持跨地區資料分析，讓你能從全球各地的數據中快速獲得洞察，而不必擔心資料傳輸的延遲。

五、使用 BigQuery 的主要優勢

(一) 企業如何受益於 BigQuery

BigQuery 幫助企業節省成本、提升效率，並提供即時的數據洞察，這些都是在數據驅動時代中脫穎而出的關鍵。

值得提的一點是企業不用在初期一口氣花好幾百萬，購買一套資料倉儲，而是每月依使用量計費，減少一口氣支出太多的負擔。

(二) 開發者與資料科學家的支援

BigQuery 提供 SQL 語法支援，且與各種開發工具兼容，讓開發者能快速上手並整合到現有的工作流程中。

六、如何開始使用 BigQuery？

(一) 建立專案與資料集

首先，你需要在 Google Cloud Console 中建立一個專案，並設定資料集，這是你管理資料的基礎。

(二) 撰寫查詢語法與分析資料

利用 BigQuery 提供的標準 SQL，你可以輕鬆撰寫查詢語法，並快速分析資料，甚至建立視覺化的報表。

七、結論

BigQuery 是一個功能強大且靈活的資料分析工具，無論是對於初創企業還是大型組織，都能帶來明顯的價值。如果你正在尋找一種高效處理數據的解決方案，不妨考慮使用 BigQuery。

八、常見問題解答

1. BigQuery 是免費的嗎？

BigQuery 提供免費沙箱，你連信用卡都不用就可以玩，每月包含 1 TB 的查詢和 10 GB 的存儲，超出部分需按使用量付費。

2. BigQuery 支持哪些資料格式？

它支持 CSV、JSON、Parquet、Avro 等多種格式，適合不同的資料需求。

3. 如何與第三方工具整合？

BigQuery 可以通過 API 或第三方工具如 Tableau、Power BI 進行整合，方便創建報告。

4. BigQuery 的資料安全性如何保障？

BigQuery 提供強大的資料加密與訪問控制，不管是 Dataset、Table、View 都可以單獨分享存取權限，並符合多項全球合規標準。

5. BigQuery 可以取代傳統數據庫嗎？

它適合用於分析數據，但不適合作為交易型資料庫（OLTP）。

意思就是不能當一般的資料庫，每天不間斷 Insert、Update、Delete 的意思。

影片版的介紹如下：

The post [BigQuery 教學] 雲端界陳浩南 – BigQuery 是什麼？功能、組成元件、特色和優勢完整介紹 first appeared on 東東 GCP 教學 - GCP 實戰講師.

[Dataflow 教學] Dataflow 是什麼？跟 Apache Beam 有什麼關係？

東東 — Sat, 23 Nov 2024 07:29:12 +0000

Dataflow 是 GCP 資料三兄弟的老二 (依知名度排行)，你的資料要放進 BigQuery 分析之前，要先整理好資料的格式，所以 GCP 強力推薦使用 Dataflow。

為什麼不用 VM 就好？你可以直接跳到最後一段！

一、Dataflow 是什麼？

想像你是一間工廠的管理者，每天都要處理大量的原物料（資料）。這些原物料需要經過各種加工程序，最後變成成品。

GCP 的 Dataflow 就像是一個全自動的生產線系統，你只要設定好要怎麼處理這些原物料，它就會自動幫你完成所有工序，而且還會自動調整工人（運算資源）的數量。

二、Dataflow 舉例說明

當然這樣子講還是有點模糊，舉個實際的例子來說：假設你需要處理每天的銷售資料，Dataflow 可以自動幫你：

收集各個分店的銷售資料
清理不正確的資料
計算各種統計數字
把結果存到資料庫

三、Dataflow 跟 Apache Beam 有什麼關係？

Apache Beam 是 Dataflow 的原型，GCP 只是把跟 Apache Beam 做一些加值的優化，放在 GCP 上，這樣你就不用自己在地端安裝和設定 Apache Beam，節省很多準備環境 (尤其是機器的安裝設定) 的時間。

Apache Beam 就像是一套標準的工廠作業規範。它定義了一些基本的處理方式，讓你可以用同一種方式來描述你想要的資料處理流程，不管最後是要在哪裡執行。

四、Apache Beam 的組成元件

讓我們來看看它的主要組成元件：

1. Pipeline（管線）：這就像是整個工廠的生產線規劃圖，定義了資料要如何從原料變成成品，經過哪些步驟。

2. PCollection（資料集合）：把它想像成工廠裡的輸送帶，上面放著要處理的原料或半成品。每次資料經過一道處理程序，就會形成新的一條輸送帶。

3. Transform（轉換）：這就是工廠裡的各種加工設備，例如：

ParDo：像是一個工作站，可以對每件原料進行客製化處理
GroupByKey：就像是分類站，把相同種類的產品集中在一起
Combine：類似於組裝線，把多個零件組合成一個成品

4. I/O Transforms（輸入輸出轉換）：就像工廠的原料進貨口和成品出貨口，決定資料要從哪裡讀入，最後要存到哪裡去。

5. Window（時間窗口）：假設你想要每小時統計一次生產數量，Window 就是幫你把資料按照時間切分的工具。

6. Trigger（觸發器）：就像是工廠的警報系統，當某些條件達成時（比如收集到足夠的數據），就會觸發特定的處理程序。

最重要的是，這整套系統的特色是：

全自動化：設定好後就會自動運作
可擴展性：需要處理更多資料時，會自動增加處理能力
容錯能力：即使某部分出問題，系統也能自動恢復
即時處理：能夠處理即時流入的資料，也能處理已存在的資料

關於 Apache Beam 詳細說明可以參考這份文件。

五、從具體的角度再解釋一次 Apache Beam 的組成元件

1. Pipeline（管線）

從技術角度來看，Pipeline 是整個數據處理的骨幹，它包含了所有的處理步驟和邏輯。

# Pipeline 的基本架構
pipeline = beam.Pipeline()
result = (pipeline 
    | "讀取資料" >> ReadFromText('input.csv')
    | "處理資料" >> Process()
    | "寫入結果" >> WriteToText('output.txt'))

例子：處理網站日誌文件，從讀取原始日誌、解析內容、到產生報表的整個流程。

2. PCollection（資料集合）

這是 Beam 中最基本的資料結構，可以存放任何型別的資料，而且是不可變的（immutable）。每次轉換都會產生新的 PCollection。

# 一個包含用戶訪問記錄的 PCollection
visits = pipeline | beam.Create([
    {'user': 'A', 'page': '/home', 'time': '2024-01-01 10:00'},
    {'user': 'B', 'page': '/products', 'time': '2024-01-01 10:05'}
])

例子：存放使用者的點擊記錄，每筆記錄包含用戶ID、訪問頁面、時間戳等資訊。

3. Transform（轉換）

轉換是對 PCollection 進行操作的處理單元。主要類型包括：

(1) ParDo（並行處理）：

# 解析每一行日誌並提取重要資訊
class ParseLog(beam.DoFn):
    def process(self, element):
        user, action, timestamp = element.split(',')
        return [{
            'user': user,
            'action': action,
            'timestamp': timestamp
        }]

logs | beam.ParDo(ParseLog())

例子：將原始的日誌文字轉換成結構化的資料格式。

(2) GroupByKey（分組）：

# 依照用戶ID分組，統計每個用戶的訪問次數
user_visits = (visits 
    | beam.Map(lambda x: (x['user'], 1))
    | beam.GroupByKey()
    | beam.Map(lambda x: {x[0]: sum(x[1])})
)

例子：統計每個用戶在不同頁面的停留時間。

(3) Combine（合併）：

# 計算每個頁面的總訪問次數
page_visits = (visits
    | beam.Map(lambda x: (x['page'], 1))
    | beam.CombinePerKey(sum)
)

例子：計算網站每個頁面的總瀏覽量。

4. I/O Transforms（輸入輸出轉換）

# 從多個來源讀取資料
logs = pipeline | beam.io.ReadFromText('logs/*.txt')
# 寫入到資料庫
results | beam.io.WriteToMongoDB(uri='mongodb://localhost:27017')

例子：從 S3 讀取日誌檔案，處理後寫入到 BigQuery。

5. Window（時間窗口）

# 每5分鐘統計一次訪問量
windowed_counts = (visits
    | beam.WindowInto(window.FixedWindows(300))  # 5分鐘
    | beam.GroupByKey()
    | beam.Map(count_visits)
)

例子：統計每小時的活躍用戶數，或計算每分鐘的交易金額。

6. Trigger（觸發器）

# 當收集到100筆資料或等待時間超過1分鐘時觸發處理
early_results = (data
    | beam.WindowInto(
        window.GlobalWindows(),
        trigger=trigger.Repeatedly(
            trigger.AfterCount(100) | 
            trigger.AfterProcessingTime(60)
        ),
        accumulation_mode=trigger.AccumulationMode.DISCARDING
    )
)

例子：即時監控系統，當檢測到異常訪問模式時立即觸發警報。

六、Apache Beam 實際應用整合範例

# 完整的網站訪問分析pipeline
def analyze_website_logs():
    with beam.Pipeline() as pipeline:
        results = (pipeline
            | "讀取日誌" >> beam.io.ReadFromText('logs/*.txt')
            | "解析日誌" >> beam.ParDo(ParseLog())
            | "加上時間窗口" >> beam.WindowInto(window.FixedWindows(3600))
            | "依頁面分組" >> beam.Map(lambda x: (x['page'], 1))
            | "計算訪問量" >> beam.CombinePerKey(sum)
            | "格式化輸出" >> beam.Map(format_output)
            | "寫入結果" >> beam.io.WriteToText('results.txt')
        )

這個例子展示了如何使用這些組件來建立一個完整的數據處理流程：

讀取多個日誌文件
解析每條日誌記錄
設定每小時的分析窗口
按頁面分組並計算訪問量
格式化輸出結果
將結果寫入文件

這樣的資料處理管道可以處理任意大小的資料集，而且能夠自動擴展和容錯。

需要注意的是，這些程式碼都是在本地端執行，如果要在 GCP Dataflow 上運行，只需要修改 Pipeline 的執行器設定即可，程式碼邏輯不需要改變。

七、為什麼不自己在 VM 上寫 Python 來處理資料就好？為何要用 Dataflow？到底差在哪裡？

讓我用實際的例子來說明在 VM 上自己寫 Python 處理資料，與使用 Dataflow 的差異。

情境：處理每日 100GB 的使用者點擊日誌 Log

(一) 在 VM 上自己寫 Python 的程式碼大概長這樣子：

# 在單一 VM 上運行的 Python 程式碼
def process_logs():
    with open('huge_logs.txt', 'r') as file:
        for line in file:
            user_data = parse_log(line)
            # 處理記憶體不足的問題
            if memory_usage > threshold:
                save_temporary_results()
                clear_memory()
            
            # 處理單機運算慢的問題
            processed_data = complex_calculation(user_data)  # 可能要跑很久
            
            # 處理機器當機的問題
            try:
                save_to_database(processed_data)
            except ConnectionError:
                retry_save(processed_data)  # 需要自己寫重試機制 (retry)

可能會遇到的問題：

記憶體限制
- VM 記憶體用完就崩潰
- 需要自己寫程式分批處理
- 要自己管理暫存資料
運算效能
- 單機處理 100GB 可能要跑一整天，花錢
- CPU 滿載可能影響其他程式
- 擴充需要自己開更多 VM、寫分散式程式，管機器太累了
錯誤處理
- 程式崩潰要從頭重跑
- 網路斷線要自己處理
- VM 當機就前功盡棄
監控和維護
- 要自己寫 Log
- 要自己監控 CPU/記憶體
- 要自己處理備份

(二) 使用 Dataflow 的情況

# Dataflow 程式碼
with beam.Pipeline(options=PipelineOptions()) as pipeline:
    results = (pipeline 
        | 'ReadLogs' >> ReadFromText('gs://bucket/huge_logs.txt')
        | 'ParseLogs' >> beam.ParDo(ParseLogFn())
        | 'CalculateResults' >> beam.ParDo(ComplexCalculationFn())
        | 'WriteToDB' >> WriteToDatabase()
    )

不覺得看起來簡單很多嗎？接下來看一下 Dataflow 自動處理的部分：

自動擴展（Auto-scaling）
- 自動偵測資料量
- 自動增加/減少運算資源
- 不用擔心記憶體爆掉
平行處理（Parallel Processing）
- 自動分散工作到多台機器
- 100GB 資料可能 1 小時就處理完
- 有效利用 Google 的運算資源
錯誤恢復（Fault Tolerance）
- 某台機器掛掉會自動重試
- 網路問題自動處理
- 不會從頭重跑，從上次中斷點繼續
監控和維護
- 完整的監控儀表板
- 即時查看處理進度
- 系統層級的 Log

(三) 何時用 Dataflow 或 VM？

什麼時候選擇 Dataflow：

資料量大（>10GB）
需要即時處理（Streaming）
處理邏輯複雜
需要可靠的錯誤處理
需要自動擴展
預算允許（雖然比 VM 貴，但省下很多人力跟時間）

什麼時候用 VM 就夠：

資料量小（<1GB）
單次處理就好
處理邏輯簡單
不急著要結果 (你可以使用 Spot VM 享受 60%~90% Off 的折扣)
預算有限

重點是：Dataflow 不只是一個執行環境，而是一個完整的資料處理平台。雖然前期學習成本較高，但在處理大量資料時，會省下更多開發和維護的時間。

這就像是比較「自己蓋房子」和「請建商蓋房子」的差異 – 雖然請建商比較貴，但他們有完整的團隊、標準流程和品質保證，最終反而更有效率。

以上先簡單介紹一下，之後再深入介紹技術細節和實際操作。

The post [Dataflow 教學] Dataflow 是什麼？跟 Apache Beam 有什麼關係？ first appeared on 東東 GCP 教學 - GCP 實戰講師.