提供您專業技能的最佳管道,IT企業主管唯一推薦

提供您專業技能的最佳管道,IT企業主管唯一推薦

2021年11月2日 星期二

在GCP上使用最熱門的Apache Spark

 


Apache Spark是大資料解決方案的重要一環,不論是對批次資料或串流資料進行資料工程化、資料探索、機器學習與人工智慧等,Apache Spark可稱做目前最炙手可熱的工具之一。

        GCP裡,開發者可以根據不同情境、不同需求選擇下面幾種方式執行Spark Job

Dataproc

        Dataproc為全代管的大資料叢集,建置叢集時,使用者只需決定節點個數、主要節點與工作站節點的運算能力與儲存空間以及所要安裝的大資料軟體。建置玩成後,叢集的運行與維護全交由GCP負責。使用者只需要專心開發Spark Job,使其符合商業邏輯即可,不須花費精神管理與維護Spark叢集。

        此方法為將部署於本地的Hadoop叢集遷移到GCP的最簡單的方法。

Dataproc Serverless

        但是不是每個使用者都有足夠的知識來決定節點數、運算能力、儲存空間等設定值。所以GCP也提供無伺服器Dataproc叢集,使用者只需提交Spark Job即可,GCP自動根據Spark job執行需求,動態配置Dataproc叢集來執行Spark Job,指令結束後自動收回Dataproc叢集。

        此方法藉由Dataproc的自動調度資源(Autoscaling)功能達到。

BigQuery

        BigQueryGCP提供具備高擴充性與成本效益的無伺服器雲端資料倉儲系統,以類SQL語言進行資料分析、機器學習等操作。

        而現在BigQuery不光只能撰寫類SQL指令,還能撰寫pySpark指令並執行。由於BigQuery為無伺服器架構,所以也採用無伺服器方式執行Spark job

Vertex AI

        Vertex AI是預先訓練與自訂工具的整合式AI平台,能夠加快建構、部署以及擴充機器學習模型。Vertex AInotebook可以連結到Spark進行互動式開發,使用者可以輕易地整合Spark與其他Vertex AI提供的機器學習模型。因此Vertex AI也能夠提供無伺服器方式在GCP執行Spark Job

Dataplex

        Dataplex應用智能型資料架構來避免資料孤島,讓使用者能夠透過一致性控制方式,集中式管理、監控與控管跨資料湖、資料倉儲與資料市集的資料,進而提供可信度高的資料存取與支援大規模資料分析操作。

        同時Dataplex能夠讓使用者撰寫並以無伺服器方式執行Spark job以存取與分析所有資料,不論目前資料的所在位置。

 

以上幾種方法,除Dataproc已經開始使用外,其他幾種無伺服器方式都將在未來一陣子內陸續上線。

建議課程:


Google Cloud 相關課程:

Related Posts:

  • 2021年PMP因應趨勢,內容及考題重大調整,恆逸成為PMI授權教育訓練中心取得最新教學資源!!文/張憲中  精誠資訊 恆逸教育訓練中心 資深講師最新國際專案管理學會 (PMI)的研究,將「專案管理能力發展框架」 (Project Management Competency Development Framework) 所作研究,藉由PMI人才金三角 (PMI’s tale… Read More
  • 資安入門選課指南:想入門,免放棄,照這樣選就對了!  文:唐任威 恆逸教育訓練中心資深講師在資安即國安時代,資安已然顯學,但想入門資安領域,卻不知如何下手嗎?資安入門課程之眾,其內容卻又大多重複;每一門課看來都厲害至極,可內容多元複雜,讓人暈頭轉向、目眩神迷。本文將剖析當今主流的資安入門課程,讓你清楚抉擇,順利邁入資安之路。 &l… Read More
  • 如何利用retrofit從Android連結到OpenAI-恆逸講師分享最近打開科技新聞大概都是ChatGPT又有什麼驚人智慧之舉,或者是智商能夠值年薪多少元的工程師,在在都說明了AI工具的開發一日千里,不管是在客戶端或者是服務器端都可以思考如何善用這些AI的api來促進應用程式更強大的功能,因此在本文中我們將說明如何用Android Studio連結到OpenAI的a… Read More
  • 6個常見的雲安全錯誤及避免的方法雲端運算為各種規模的IT服務提供更大的靈活性與可靠性,同時更能降低成本。然而對於許多企業來說,雲端安全性一直都是許多決策者最頭痛的問題。根據2022年一項針對大型企業安全專業人員的調查,81%的受訪者表示過去一年中曾出現雲端安全事件,此外超過一半的受訪者表示,他們認為雲端安全風險比本地IT的安全問題… Read More
  • Power Platform實踐了在SaaS服務架構下的資料倉儲與商務營運環境文:屠立剛 精誠資訊/恆逸教育訓練中心資深講師 從維基百科上的「資料倉儲/ Data Warehouse」說明可知,這是提供企業在商務營運下,對資訊架構所提供的資訊內容的報告和資料分析的系統,普遍被認為是「商業智慧/BI/ Business Intelligence」的核心組件。 「資料倉儲… Read More

0 意見:

張貼留言