Databricks 使用上雖然與 Azure DevOps 沒有直接關係,但可以讓團隊建立開發流程中多環境部署觀念。在產品開發流程中,我們會分成 Dev、Staging 與 Prod 環境:在 Dev 環境中,notebook 會有大幅度的變更與頻繁的測試,直到功能完成或問題解決,才會部署至 Staging 進行測試。

Staging 屬於類正式環境,除了使用與正式環境相似的環境與資料 (如:正式環境但非最新的資料) 進行測試,以降低部署至正式環境時,因為資料面或環境問題導致錯誤發生。在這個階段,通常也會請專業測試團隊進行測試,以符合客戶需求。




本篇文章將簡單介紹如何透過 Azure Pipeline 部署 notebook 至 Azure Databricks,除了介紹操作步驟,也讓讀者可以了解兩個服務整合的使用情境。若有錯誤會任何建議,請各位前輩不吝提出。


事前準備工作:產生 Access Token 與 workspace url

在此準備工作階段,我們將產生 Token 與記錄下 Azure Databricks Url (Workspace URL) 作為後續使用。

步驟 1.  點選右上角使用者圖示 > User Settings



步驟 2. 選擇 Access Tokens 頁簽,點選 Generate New Token



步驟 3. 輸入名稱與有效時間



步驟 4. 複製 Token ( 關閉此視窗後即無法再次看見 Token,若忘記只能重新產生)



步驟 5. 複製 Azure Databricks 網址 (即為 Workspace URL)





透過Azure Pipeline部署notebooks至Azure Databricks

步驟 1. 開啟 Azure DevOps Services,點選要設定的專案,左邊選單選擇 Pipeline,點選畫面中間 Create Pipeline (若已經存在舊有 pipeline,Create Pipeline 按鈕在右上角)



步驟 2. 點選下方 User the classic editor (若您對於 YAML熟悉,也可以使用YAML 撰寫 Build Scripts)


步驟 3. 選擇 Azure Repo Git,選擇 Project、Repo 與 Branch,點選 continue


步驟 4. 點選上方 Empty Job


步驟 5. 點選 Agent Job 1 旁邊的 + 按鈕,右上角搜尋 databricks,找到 DevOps for Azure Databricks


步驟 6. 在開啟網頁上點選 Get it Free


步驟 7. 選擇組織並進行安裝 (若您權限不夠,請發送請求讓組織管理者同意)


步驟 8. 安裝完成後,點選 Refresh,可以看見如下圖五種 pipeline tasks


步驟 9. 基本上,一定要選擇 configure Databricks CLI,其餘工作依據需求選擇。我們這邊呈現 Deploy notebooks to workspace


步驟 10. 輸入事前準備的 Azure Databricks workspace 與 Access token


步驟 11. 在 Deploy Notebook to workspace 工作內設定 Notebook folder 與 workspace folder (注意:兩個都是資料夾)


步驟 12. 設定完成圖如下


步驟 13. 點選上方 Save & queue


步驟 14. 選擇要執行的 Agent 與 Branch,點選 run


等待工作執行完成


步驟 15. 執行完成後,即可在 Databricks 上看見 notebooks



補充:若需要事後觸發該 Notebooks 進行資料處理或佈署,可以加入執行工作,輸入要執行的 Notebook path 與 Cluster ID