2021年11月2日 星期二

在GCP上使用最熱門的Apache Spark

 


Apache Spark是大資料解決方案的重要一環,不論是對批次資料或串流資料進行資料工程化、資料探索、機器學習與人工智慧等,Apache Spark可稱做目前最炙手可熱的工具之一。

        GCP裡,開發者可以根據不同情境、不同需求選擇下面幾種方式執行Spark Job

Dataproc

        Dataproc為全代管的大資料叢集,建置叢集時,使用者只需決定節點個數、主要節點與工作站節點的運算能力與儲存空間以及所要安裝的大資料軟體。建置玩成後,叢集的運行與維護全交由GCP負責。使用者只需要專心開發Spark Job,使其符合商業邏輯即可,不須花費精神管理與維護Spark叢集。

        此方法為將部署於本地的Hadoop叢集遷移到GCP的最簡單的方法。

Dataproc Serverless

        但是不是每個使用者都有足夠的知識來決定節點數、運算能力、儲存空間等設定值。所以GCP也提供無伺服器Dataproc叢集,使用者只需提交Spark Job即可,GCP自動根據Spark job執行需求,動態配置Dataproc叢集來執行Spark Job,指令結束後自動收回Dataproc叢集。

        此方法藉由Dataproc的自動調度資源(Autoscaling)功能達到。

BigQuery

        BigQueryGCP提供具備高擴充性與成本效益的無伺服器雲端資料倉儲系統,以類SQL語言進行資料分析、機器學習等操作。

        而現在BigQuery不光只能撰寫類SQL指令,還能撰寫pySpark指令並執行。由於BigQuery為無伺服器架構,所以也採用無伺服器方式執行Spark job

Vertex AI

        Vertex AI是預先訓練與自訂工具的整合式AI平台,能夠加快建構、部署以及擴充機器學習模型。Vertex AInotebook可以連結到Spark進行互動式開發,使用者可以輕易地整合Spark與其他Vertex AI提供的機器學習模型。因此Vertex AI也能夠提供無伺服器方式在GCP執行Spark Job

Dataplex

        Dataplex應用智能型資料架構來避免資料孤島,讓使用者能夠透過一致性控制方式,集中式管理、監控與控管跨資料湖、資料倉儲與資料市集的資料,進而提供可信度高的資料存取與支援大規模資料分析操作。

        同時Dataplex能夠讓使用者撰寫並以無伺服器方式執行Spark job以存取與分析所有資料,不論目前資料的所在位置。

 

以上幾種方法,除Dataproc已經開始使用外,其他幾種無伺服器方式都將在未來一陣子內陸續上線。

建議課程:


Google Cloud 相關課程:

0 意見:

張貼留言