데이터엔지니어링 8

[Udemy] Data Engineering 101: The Beginner's Guide - Data Pipeline architecture(1)

data architecturewhat is good data architectureperformance : using computing and storage resources efficientlytrade-off between performance and complexityscalability : data volumes = fluctuateupstream system fail → increasing data volumesscale up/down should be automatical : scale-down can save a lot of moneyreliability : available system & avoid failureAutomate as much as possible → reduce huma..

[Udemy] Data Engineering 101: The Beginner's Guide - Undercurrents

DataOpsDevOps for dataDevOps : deploy software in a more iterative & robust mannerbuild, manage cloud infraobservability of cloud infrabuild automated CI(Continuous Integration)/CD(Continuous Deployment) PipelineDataOps : data product deployments more iterative and robustbuild, manage cloud infra for data toolsobservability of data systems(incident reporting and notifications of problems)automat..

[Udemy] Data Engineering 101: The Beginner's Guide - End-to-end data pipeline in-depth(2)

IngestionIngestion = moving or ingesting datafrequencybatch vs streamingbatch : slower = daily or hourlystreaming : faster = seconds to sub-seconds. real-timemicro-batch : combination of batch and streamingBatch ingestionconvenientless latencymore forgiving TypeETL : Extract → Transform → Loadtraditional data warehouse : clean → put DWwhy ETL needs cleaning? DW is expensive!most commonELT : Extr..

[Udemy] Data Engineering 101: The Beginner's Guide - End-to-end data pipeline in-depth(1)

Generation of source datastructured / unstructured : differences in store, search..structured data : tabular, 2-demensional(rows and columns)use SQLBI, classical MLunstructured data : filesuse Deep Learning(Neural Networks)database : if choose wrong database, suffer from performanceRDBMS : Relationaltransactional data, tabular formatrelation between tablesinflexible, strict, normalizedsingle mac..

[Udemy] Data Engineering 101: The Beginner's Guide - Intro

입사한 지 벌써 6개월 차다.데이터 엔지니어링을 직접 하지는 못하더라도 데이터 엔지니어링이 무엇인지, 무슨 일을 하는지, 무엇을 중요하게 여기는지 정도는 알아둬야 할 것 같다는 생각이 들었다. 그래서 udemy에서 Data Engineering 101 강의를 듣기 시작했다. 복습 겸 써보는 포스팅! Data EngineeringWhy Data Engineering is important? : Big data requires efficient data handlingData Engineerwithin data team : bridge between data producers and data consumersdata producer : software engineers and DevOps engineers ..

[Udemy] Spark 프로그램의 고급 예제

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. Broadcast 변수spark context에서 브로드캐스트를 호출해서 원하는 모든 데이터를 모든 집행자 노드에 전달할 수 있다. 모든 노드에서 읽기 전용 변수를 공유함으로써 오버헤드를 줄이고 성능을 향상시킬 수 있다.broacast 외의 spark의 공유 변수로는 accumulators가 있다.  accumulators는 브로드캐스트와 달리 특정 정보 집계 시 사용할 수 있다.특징큰 규모의 입력 데이터를 효율적으로 제공읽기 전용 변수RDD의 맵 기능 내에 적용하려는 경우 사용한다id와 이름을 매칭시키는 작업을 시행할 경우, join 혹은 broadcast을 사용할 수 있다.join : DB ..

Data/spark 2024.06.15

윈도우 pyspark setting 트러블 슈팅

오늘 포스팅에서는 pyspark를 세팅하는 과정 중에 발생한 이슈를 다뤄보려고 합니다. 요새 udemy에서 pyspark 강의를 듣고 있거든요  log4j.properties 수정spark 설치 이후, conf 폴더 내의 log4j.properties.template 파일을 수정해야 합니다. 파일명에서 .template를 삭제한 뒤, 워드패드로 파일을 열어 rootCategory=INFO를 rootCategory= ERROR로 수정해야 합니다.그런데 제 버전에서는 해당 파일 내에 rootCategory=INFO라는 문구가 없었습니다.해결 방법원래 ERROR로 수정하는 것은 작업 실행 시, 출력하는 모든 logs span의 클러터를 없애기 위함입니다. 구글링해본 결과, rootLogger.level = W..

Data/spark 2024.05.06

빅데이터 연합동아리 보아즈 BOAZ 수료 후기

지난달에 열린 제19회 컨퍼런스를 마지막으로 보아즈를 수료하였습니다. 오늘은 대학생활 마지막 1년을 함께 한 보아즈 활동에 대해서 포스팅해보려고 합니다. 제가 수료한 분석 세션을 기준으로 말씀드린다는 점 참고하세요! BASE 방학 방학에는 머신러닝과 딥러닝 관련 개념을 학습합니다. 방학 정규 세션은 adv 기수가 준비하며, 멘토-멘티에서는 팀마다 차이가 있지만 base 기수가 주로 세션을 준비합니다. 지도/비지도학습, RandomForest 등의 모델에 대해 배우고, 주차별 과제를 수행합니다. 딥러닝 파트에서는 CNN, RNN, LSTM 등 베이직한 모델에 대해서 배웁니다. 딥러닝 파트 발제 들으면서 명강을 많이 들을 수 있었습니다. 본인이 부족하다고 미안하다고 하시는데 대체 어디가 부족한 건지 잘 모르..

기타 정보 2024.02.04
반응형