Pyspark 6

[Udemy] Spark Streaming, 구조적 스트리밍

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. Spark Streaming연속적인 흐름의 데이터를 분석할 때 사용연속적인 흐름의 데이터 : 로그 데이터 등 지속적으로 생성되는 데이터특징kafka, hdfs 등 다양한 경로로 유입되는 데이터를 가져올 수 있다.체크포인트 기능 지원 : 스트림이 꺼지거나 시스템이 오류가 생기더라도, 재부팅 시 꺼졌던 부분에서 다시 시작된다Dstreamspark streaming에서는 연속적인 흐름의 데이터를 받아 Dstream이라는 단위로 나눈다.Dstream : 시간별로 도착한 데이터의 연속적인 모임micro batch로 들어온 데이터별개의 RDD로 처리된다묶는 시간 기준을 설정할 수 있다.sc = sparkc..

Data/spark 2024.07.05

[Udemy] Spark ML을 사용한 머신러닝

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. MLLib데이터프레임 api를 사용함으로써, 스파크의 여러 요소 간 상호 운용성을 높여줌RDD 등의 형식은 사용이 불가능예제 : ALS, 선형 회귀, decision tree# ALS 모델 세팅 : 하이퍼파라미터 설정 포함als = ALS().setMaxIter(5).setRegParam(0.01).setUserCol("userID") \ .setItemCol("movieID").setRatingCol("rating")# trainmodel = als.fit(ratings)# 입력받을 인수 정의userID = int(sys.argv[1])# user 스키마 생성userSchema = Stru..

Data/spark 2024.07.02

[Udemy] Spark 프로그램의 고급 예제

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. Broadcast 변수spark context에서 브로드캐스트를 호출해서 원하는 모든 데이터를 모든 집행자 노드에 전달할 수 있다. 모든 노드에서 읽기 전용 변수를 공유함으로써 오버헤드를 줄이고 성능을 향상시킬 수 있다.broacast 외의 spark의 공유 변수로는 accumulators가 있다.  accumulators는 브로드캐스트와 달리 특정 정보 집계 시 사용할 수 있다.특징큰 규모의 입력 데이터를 효율적으로 제공읽기 전용 변수RDD의 맵 기능 내에 적용하려는 경우 사용한다id와 이름을 매칭시키는 작업을 시행할 경우, join 혹은 broadcast을 사용할 수 있다.join : DB ..

Data/spark 2024.06.15

[Udemy] SparkSQL, DataFrames 및 Datasets

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. SparkSQLSQL문으로 데이터를 핸들링할 수 있는 툴데이터프레임 API를 포함한다spark context 대신 spark session을 생성하여 활용spark = SparkSession.builder.appName("SparkSQL").getOrCreate()spark sql 인터페이스 노출getorcreate : 이전에 생성한 spark session을 종료하기 위함테이블 형태로 노출하기 위해 alias 부여schemaPeople = spark.createDataFrame(people).cache()schemaPeople.createOrReplaceTempView("people") # v..

Data/spark 2024.06.11

[Udemy] Spark 기본 사항 및 RDD 인터페이스

* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. Spark 기본 사항Spark란대용량 데이터 처리를 위한 엔진스파크 스크립트 : 파이썬, 자바, 스칼라에서 작동하둡 맵리듀스보다 빠르다는 장점핵심 : 복구 가능한 분산 데이터 세트RDD : 스파크의 기본 데이터 구조, 큰 데이터 세트분산, 변형하는 성질여러 클러스터에 나눌 수 있음개인 컴퓨터에서도 작동 가능특정 노드에 이상이 생겨도 자동적으로 작동 가능 RDD 인터페이스아이템이 2개인 키-값쌍 RDD : rdd.map(lambda ~)키 : 기존 rdd값 : 원하는 쌍주요 함수reduceByKey : 키가 같은 값끼리 모두 합치는 함수groupByKey : 공통된 키를 가지는 값의 목록을 구하는..

Data/spark 2024.05.21

윈도우 pyspark setting 트러블 슈팅

오늘 포스팅에서는 pyspark를 세팅하는 과정 중에 발생한 이슈를 다뤄보려고 합니다. 요새 udemy에서 pyspark 강의를 듣고 있거든요  log4j.properties 수정spark 설치 이후, conf 폴더 내의 log4j.properties.template 파일을 수정해야 합니다. 파일명에서 .template를 삭제한 뒤, 워드패드로 파일을 열어 rootCategory=INFO를 rootCategory= ERROR로 수정해야 합니다.그런데 제 버전에서는 해당 파일 내에 rootCategory=INFO라는 문구가 없었습니다.해결 방법원래 ERROR로 수정하는 것은 작업 실행 시, 출력하는 모든 logs span의 클러터를 없애기 위함입니다. 구글링해본 결과, rootLogger.level = W..

Data/spark 2024.05.06
반응형