Early Riser — 設計 E2E 數據架構 課後心得

AlphaCamp 推出的Early Riser — 設計 E2E 數據架構,六週結業完整心得!

YL-Tsai
7 min readJan 30, 2023
source

什麼樣的契機來上了這堂課

細數自己在 Data 領域的工作靜悄悄地也超過了 3 年,自己過去看到有趣的 data meetup 或 conference,都會很有興趣的去攪局一下,而這次的 Early Riser — 設計 E2E 數據架構,一開始其實是從 Irene 與資料職涯大小事的限時動態中看到。

一看內容說可以討論系統設計,技術選擇的 tradeoff, 到資料產品的規劃,我就感受到這堂課和坊間的資料科學課程有極大的不同。

還提到了會分組並且有一份 Data Product 的提案報告,這種和社群結合的課程實在非常對我的胃口。

總之,抱持著非常期待的心情就申請了這個 program,申請表還問了一些對 data pipeline, data engineering 的基本理解,感覺就可以收穫很多!!

也感謝二話不說直接幫我推薦的 YC!

附上一張自己看到就決定要參加的學程綱要:

source : alpha camp — rise program

那麼什麼是 Early Riser?

Rise 是 AlphaCamp 所設計的一套學程,主要是鎖定已經在業界一段時間,期望培養領導者技能的一個 Program,有興趣的讀者可以參考這裡

課程上起來感受如何?

開始了這精彩充實(彳ㄠ ㄌㄟˋ)的營隊課程,有什麼讓人印象深刻的呢?

幾個關於學習體驗有趣的點可以提:

一來是課程是全線上的,不過 AlphaComp(AC) 的助教們會鼓勵你把鏡頭打開 (所以其實是很難偷混的)。

二來則是AC 的助教群們非常用心地讓學員們有更好的學習體驗,包含開設了 Discord 專用社群,詳盡的課前須知,還會時不是喇賽一下,讓大家覺得這個社群是有趣的。

source : 課程 discord 社群

以上附圖是大家在 Discord 中的討論議題,筆者覺得有人一起討論這些議題是一件相當有趣的事情。

另一方面正課內容也非常乾貨滿滿,從 Data Team 團隊組成, Data Team 對企業的價值以及對應的 Tech Stack,都是自己沒想過原來可以從全局的視角切進去看。

source : 課程閱讀材料

例如上圖就是整合 Data Team 能夠對企業帶來什麼價值,以往都是在面試的時候去感受到底目標公司這個 Data Team 主要在做什麼,透過這個分類讓我更能 high level 的掌握 data team 到底能夠貢獻什麼。

source : 課程講義

又例如這張圖,說明了 data team 基於不同的商業貢獻,常常長出不同的 Tech Stack,如下面兩圖:

source : 課程閱讀材料

能夠從 high level 的視角來觀察不同的資料系統,並有一群人可以討論,實在是件很有趣的事情。

而除了架構面的所見即所得,也發現了自己過往在使用 draw.io 來描述 pipeline 解析圖,能夠被另一種方式表述。

source : 陪伴筆者行走多年的 pipeline 設計模板,也感謝途中各個夥伴的改版強化
source : 課程講義

而這個思考框架可以被擴增成不同的層次,資料表和運算邏輯可以被歸納在邏輯層(Logical Layer),而整體來說,想要做什麼樣的事情,可以歸類在概念層(Conceptual Layer)。

source : 課程講義

並且很有趣的,需要使用什麼樣的工具來進行資料的操作 (Data Operations),也能夠用類似的框架來思考!

這是筆者覺得在思考層級上從學程獲得相當多得地方,讓你能夠用更全局的觀點來思考資料架構以及資料產品,並能夠在必要的時刻,用 high level 的圖表向上溝通及橫向溝通。

課程內容以外的亮點

除了正課的學習外,AC特地開了 Discord 社群,並且在這裡引導大家提問、發起討論、練笑為,筆者覺得這種沈浸式的學習方式真的很不錯呀!

source : 課程 Discord 群組

有的是課堂上的大哉問,有的是大家對於閱讀材料有其他好奇的點,自己也常常這樣學習,所以在這樣的環境下,有時候吃飽飯看一下 Discord 又過了兩小時。

另外還有一件有趣的事,就是 重回大學分組報告,沒錯,學程為了讓大家收穫滿滿,推出了這種自己思考,自己討論,自己規劃(也沒打算讓我們閒著?)的課程目標,由於會分到不同產業的 DS/DA/MLE/DE ,所以在規劃資料產品時,會更有不同的火花,彼此過往熟悉不同的工具,以及不同的部門關係,關於這一點可以互相交流,也是一點筆者覺得相當有價值的地方,也特別感謝 Jack, Wangchan, YL

一起討論的時光覺得學習到很多有趣的東西。

體驗總結

總體來說,自己相當享受此課程提供的六週學習環境,有厲害的導師,很有學習熱忱的夥伴,以及一個大家熱烈討論的 Discord 社群,雖然課程名稱是 設計 E2E 數據架構 , 不過筆者自己實驗體驗下來的感受比較像是以下三個面相的閱讀、討論:

  1. 資料能帶給公司什麼樣的價值
  2. 對應的 Infrastructure 會有什麼樣的特性
  3. Infrastructure 的提案規劃 — 前、中、後期以及對應能帶來的商業價值

反而不會是非常技術角度的探討各個技術工具的選擇和限制,這或許是課程設計和講師要提醒我們要用更寬闊的角度來思考?

問我推不推薦呢?

如果你是一位對於 Data 領域非常有熱忱的朋友

那麼你在這裡可以找到一群同好

如果你是一位覺得 Data 領域的內容多樣化到眼花撩亂

那麼這堂課可以給你在 Data Engineering 上 以及 Data Product 上一個思考框架

如果你跟我一樣? 喜歡透過很像社團的學習方式

那麼你可以在這堂課充實(ㄅㄠˋㄓㄚˋ)的學習,有點像大學課很多在加個社團幹部的感覺一樣

如果以上場景有描述到你,那麼可以考慮加入下一梯次的課程喔! 也感謝各位讀者賞臉看到最後!

P.S. 附上課程結束一陣子之後,我仍然記得的一句話給大家作為總結

挑選框架和工具時,網路上查到的資料總是描述優點,而這些框架和工具的缺點才是工程師們最該注意的地方

筆者自製 =)

--

--

YL-Tsai

Machine Learning Engineer with 4y+ experience | Exploring the data world | Recommendation, Search, Ad System.