Google Cloud 的創新基礎架構

2022/07/20

本文編譯自:Google Blog

企業透過使用雲端服務的新方法來推動其業務的全面轉型;從提高核心流程的效率,到改善他們接觸和更好地服務客戶的方式,再到推動創新的數據獲得洞察力。

雲端基礎設施屬於每個企業轉型戰略的核心。近幾年,觀察到在雲端的核心功能方面進行創新的廣闊前景,這將對在 Google Cloud 上建構解決方案的速度和簡單性產生長期影響。從數據管理和機器學習到安全性和永續發展,Google將繼續大力投資於基礎設施的創新,從基礎上創造價值。Google專注於基礎設施的三個定義,這些定義可以幫助客戶通過創新加速:

  • 優化:客戶需要滿足其特定需求的解決方案。他們希望在需要的地方建構和運行應用程序,為工作負載、行業解決方案和特定結果量身定制,無論是高性能、成本節約還是兩者的平衡。他們的工作負載量應該在 Google Cloud 上運行得更好。
  • 轉型:轉型不僅僅是為了節省成本和方便而將基礎設施“提升和轉移”到雲端。變革性基礎架構串連了 Google 的 AI 和 ML 能力,以推動更快的創新,同時滿足最嚴格的安全性、主權和合規性需求。
  • 易用:隨著雲平台變得更加普及,採用和操作可能變得非常複雜。易於使用的雲平台可以減輕營運負擔。客戶經常告訴我們,Google Cloud 讓複雜的任務看起來很簡單。

Google 20 多年的技術領先地位建立在創新文化和以客戶為中心的基礎之上。以下是Google在這些領域帶來的一些案例。

針對您最重要的事情進行優化的解決方案

從優化性價比開始。去年,Google推出了針對橫向擴展工作負載的經濟高效性能優化的 Tau VM。Tau T2D 在性能和總擁有成本方面超越了所有領先的公有雲供應商,與其他公有雲供應商相比,提供了高達 42% 的性價比。

Google正在為客戶提供更多選擇,在 Tau VM 系列中增加了基於 Arm 的機器。T2A VM 由基於 Ampere® Altra® Arm 的處理器提供支持,以極具吸引力的價格提供卓越的單線程性能,使其成為橫向擴展的雲端原生工作負載的理想選擇。開發人員現在可以選擇最佳架構來測試、開發和運行他們的工作負載。

成本優化是許多客戶的主要目標。Spot VM使您能夠以極低的折扣利用Google的空閒機器週期,保證 60% 的折扣和高達 91% 的定價節省。這些是高性能計算、大數據和分析中的批次處理作業和容錯工作負載的完美選擇。客戶告訴我們,他們希望在 Spot VM 的定價中看到更少的可變性和更多的可預測性。Google清楚地聽到了你的聲音,與其他領先的雲相比, Spot VM 提供最小的可變性(每月一次的價格變化)和更高的定價可預測性。

針對全球規模進行優化,對於滿足當今消費者的高需求至關重要——尤其是在影片流量方面。Media CDN於 2022 年 5 月推出,經過優化,可在全球範圍內提供身臨其境的影片體驗。Media CDN 在 1,300 多個城市提供服務,利用與 YouTube 相同的基礎設施向全球超過 20 億用戶提供內容。包括 U-NEXT 和 Stan 在內的客戶已迅速推出 Media CDN,為他們的觀眾提供現代、高品質的視覺體驗。

另一個新興機會是分佈式系統和分佈式工作者的興起,以及在需要的地方建構和運行應用程式的能力。透過Google 分佈式雲,將 Google Cloud 基礎架構和服務擴展到不同的物理位置(或分佈式環境),包括本地或託管數據中心以及各種邊緣環境。Anthos 為所有 Google 分佈式雲產品提供支持,提供通用控制平面,用於在您選擇的任何地方大規模建構、部署和運行現代容器化應用程序。

為了獲得更多選擇,將 Google 分佈式雲設計為硬體、軟體和服務的組合,提供多種產品來滿足您的工作負載和專案的特定要求。您可以從我們的邊緣、虛擬和託管產品中進行選擇,以滿足業務需求。

通過 AI/ML 和安全推動轉型

機器學習領域的創新步伐不斷加快,Google長期以來一直是先驅。從 Search 和 YouTube 到 Play 和 Maps,ML 幫助展示了產品所能提供的最好的東西。Google的目標是讓客戶能夠充分利用 Google,而 JAX 和 Cloud TPU v4 就是兩個很好的例子。

JAX是由 Google 研究人員開發的尖端開源 ML 框架。它旨在為 ML 從業者提供更大的靈活性,並允許他們更輕鬆地將模型擴展到最大的規模。

新的ML hub向所有客戶提供了 Cloud TPU v4 pod。這個 Cloud TPU v4 pod 提供 9 exaflops 的峰值聚合性能,並以 90% 的無碳能源運行,使其成為世界上最快、最高效和最具永續性的 ML 基礎設施中心之一。Cloud TPU v4 使研究人員能夠訓練各種複雜的模型,包括自然語言處理模型和推薦模型等等。客戶已經看到了好處,包括 Cohere 的訓練時間縮短了 70%,LG Research 使用 Cloud TPU v4 訓練他們的大型多模式 3000 億參數模型。

在安全方面,日益增加的網絡安全威脅讓每家公司都重新考慮其資訊安全。Google對安全、高性能和可靠的全球網路的投資與Google在定義行業範圍的框架和標準方面的領先地位相符,期望幫助客戶更好地保護軟體供應鏈。Google 去年推出了 SLSA(軟體工具的供應鏈級別),這是一個端到端框架,用於確保整個軟體供應鏈中工具的完整性。

Google不斷挑戰與超越,在不複雜配置或性能下降的情況下啟用安全性。這方面的一個例子是Google的機密虛擬機——其中數據儲存在受信任的執行環境中,即使使用除錯工具也無法查看在其上執行的數據或操作。另一個是雲端入侵檢測系統 (Cloud IDS ),它提供基於 ML 驅動的網絡威脅檢測,每天處理超過 15 萬億次交易,透過每天進行 430 萬次獨特的安全更新來辨識新威脅。憑藉 Cyber​​Ratings.org 的最高 AAA 評級,Cloud IDS 已被證明能夠有效阻止幾乎所有的規避行為。

針對開發者使用的易用性

使用易於使用的工具加速專案開發,讓企業數位轉型之旅變得更簡單。Google推出了Batch預覽版,完全託管的作業調度程式,可幫助客戶透過一個命令運行數千個批次處理作業。作業在可自動擴展的資源上運行,讓您有更多時間在最有價值的領域工作。改善了開發人員執行 HPC、AI/ML 和數據處理工作負載(例如基因組測序、媒體渲染、財務風險建模和電子設計自動化)的體驗。

為了更輕鬆地完成開發,Google宣布推出新的HPC 工具包。這是一款來自 Google Cloud 的開源工具,可在數分鐘內根據經過驗證的最佳實踐輕鬆創建可重複的 HPC 集群。它帶有多個藍圖並廣泛支持第三方程式,例如 Slurm 調度程式和英特爾 DAOS 和 DDN Lustre 儲存。

系統的性能及基礎設施在做什麼的意識與安全性密切相關。Google最近推出了Network Analyzer,通過自動監控 VPC 網路配置,幫助客戶將被動式工作流程轉變為主動式工作流程並減少網路和服務停機時間。Network Analyzer 是Google網路智能中心的一部分,為 Google Cloud 網路可觀察性、監控和故障排除提供單一控制台。

這只是在 Google Cloud 中為提供基礎架構所做的一個案例,該基礎架構讓客戶可以在一個簡單、變革性和優化的平台上自由地進行安全創新和從本地、邊緣到雲的擴展。