* 이 포스팅은 'Apache Spark 와 Python으로 빅데이터 다루기' 강의 복습용으로 작성하였습니다. Spark Streaming연속적인 흐름의 데이터를 분석할 때 사용연속적인 흐름의 데이터 : 로그 데이터 등 지속적으로 생성되는 데이터특징kafka, hdfs 등 다양한 경로로 유입되는 데이터를 가져올 수 있다.체크포인트 기능 지원 : 스트림이 꺼지거나 시스템이 오류가 생기더라도, 재부팅 시 꺼졌던 부분에서 다시 시작된다Dstreamspark streaming에서는 연속적인 흐름의 데이터를 받아 Dstream이라는 단위로 나눈다.Dstream : 시간별로 도착한 데이터의 연속적인 모임micro batch로 들어온 데이터별개의 RDD로 처리된다묶는 시간 기준을 설정할 수 있다.sc = sparkc..