崗位職責:
1、實時監(jiān)控、排除故障并解決AWS
2、EMR/Ali云集群和相關數(shù)據(jù)管道的問題。
3、調(diào)查和調(diào)試數(shù)據(jù)處理故障、延遲問題和性能瓶頸。
4、作為隨叫隨到輪換的一部分,為關鍵任務生產(chǎn)系統(tǒng)提供支持。
5、應用于大數(shù)據(jù)領域的分析和解決問題的能力。熟悉面向?qū)ο蟮母拍詈蛯崿F(xiàn)。
6、管理AWS EMR集群生命周期,包括創(chuàng)建、擴展、終止和優(yōu)化。
7、確保集群的有效資源利用和成本優(yōu)化。
8、根據(jù)需要對EMR集群和軟件組件應用補丁和升級。
9、維護和支持在EMR上運行的Apache Spark、Glue目錄、Hive或Presto等工具上構建的ETL/ELT管道。
10、確保跨管道和存儲系統(tǒng)(如S3、Redshift、Mysql或Snowflake)的數(shù)據(jù)質(zhì)量、一致性和可用性。
11、使用AWS工具(如Step Functions、Lambda和CloudWatch/Datadog)實施和監(jiān)控自動化工作流程
12、通過調(diào)整Spark/Hive配置和提高查詢效率來分析和優(yōu)化EMR作業(yè)性能。
13、識別并解決數(shù)據(jù)存儲和訪問模式中的低效問題。
14、為當前應用程序的性能增強和微調(diào)提供最佳解決方案。
15、通過持續(xù)監(jiān)控和最佳實踐優(yōu)化AWS Lambda、Glue和Redshift部署的性能和成本效益。
16、設置和管理監(jiān)控工具(例如AWS CloudWatch、Datadog或Prometheus)以跟蹤系統(tǒng)運行狀況和性能。
17、開發(fā)警報機制和儀表板,以主動識別問題。
18、提供作業(yè)狀態(tài)的每日/每周監(jiān)控報告,并對任何長時間運行/資源消耗問題發(fā)出警報
19、與軟件開發(fā)人員、數(shù)據(jù)科學家和DevOps團隊合作,解決問題并優(yōu)化工作流程。
20、與跨部門團隊(客戶、項目經(jīng)理和技術團隊)合作以確保和執(zhí)行項目交付成果的豐富經(jīng)驗。
21、維護故障排除指南、操作工作流程和最佳實踐的全面文檔。
崗位要求:
1、熟練管理AWS服務和阿里云服務,特別是EMR、S3、Lambda、Step Functions、PolarDB、OCC和CloudWatch。
2、具有Apache Spark、Hive或Presto等分布式數(shù)據(jù)處理框架的實踐經(jīng)驗。
3、在Kafka、NiFi、亞馬遜網(wǎng)絡服務(AWS)、Maven、Ambari TEZ、Stash和Bamboo方面的經(jīng)驗。
4、熟悉Sqoop等數(shù)據(jù)加載工具。熟悉AWS Redshift、Aurora MySQL和PostgreSQL等云數(shù)據(jù)庫或阿里云PolarDB
5、了解Oozie或Apache AirFlow等工作流/調(diào)度器。
6、精通Shell腳本、python或Java腳本和自動化。
7、熟悉SQL和查詢優(yōu)化技術。
8、具備為大型分布式系統(tǒng)或數(shù)據(jù)平臺提供生產(chǎn)支持的經(jīng)驗。
9、能夠分析日志、診斷問題并在高壓情況下實施修復。
10、實施數(shù)據(jù)建模概念和方法,以優(yōu)化數(shù)據(jù)倉庫解決方案。
11、使用流程圖、源到目標映射、系統(tǒng)架構圖和用例管理詳細的標準操作程序(SOP)
12、強大的分析技能,能夠調(diào)試復雜系統(tǒng)并解決性能瓶頸。
13、與跨職能團隊協(xié)調(diào)的有效溝通技巧。
14、積極主動、以客戶為中心的態(tài)度,提供卓越的生產(chǎn)支持。
15、計算機科學、工程或相關領域的學士學位。
16、3年以上數(shù)據(jù)工程、生產(chǎn)支持或類似工作經(jīng)驗。