데이터분석 25

윈도우 pyspark setting 트러블 슈팅

오늘 포스팅에서는 pyspark를 세팅하는 과정 중에 발생한 이슈를 다뤄보려고 합니다. 요새 udemy에서 pyspark 강의를 듣고 있거든요  log4j.properties 수정spark 설치 이후, conf 폴더 내의 log4j.properties.template 파일을 수정해야 합니다. 파일명에서 .template를 삭제한 뒤, 워드패드로 파일을 열어 rootCategory=INFO를 rootCategory= ERROR로 수정해야 합니다.그런데 제 버전에서는 해당 파일 내에 rootCategory=INFO라는 문구가 없었습니다.해결 방법원래 ERROR로 수정하는 것은 작업 실행 시, 출력하는 모든 logs span의 클러터를 없애기 위함입니다. 구글링해본 결과, rootLogger.level = W..

Data/spark 2024.05.06

태블로 Gauge Chart

위와 같이 수치를 게이지 형태로 나타내는 차트입니다.https://tableau.toanhoang.com/gauge-chart-with-arrow/ 을 참고하였으며 superstore 데이터를 사용하였습니다. 선택한 연도와 기준 연도의 sales 증가율을 나타내기 위해 아래와 같은 매개변수 및 계산된 필드를 만듭니다.매개 변수 만들기Selected Year과 Comparison year : selected year는 현재값을 2023으로, comparison year는 현재값을 2022로 설정합니다. 이외에는 동일하게 설정합니다. 계산된 필드 만들기원점과의 연결을 위한 필드path : IIF ([Ship Mode]="First Class", 0, 1)  path(bin) : path 클릭 > 만들기 > ..

태블로 Calendar circle chart

위와 같이 주차별로 연속형 변수를 비교할 수 있는 calendar circle chart를 만들어보겠습니다. Creating Calendar Circle Charts in Tableau - Toan Hoang 를 참고했으며, super store 데이터를 활용했습니다. 매개 변수 만들기 Depth : 하나의 월을 어떤 기준으로 집계할 것인지 설정합니다. Data type : 정수 허용 가능한 값 : 범위 최소 : 2 최대 : 7 💡 최소값과 최대값이 2와 7인 이유 주차별로 집계할 것이기 때문입니다. 하나의 주차에는 최소 2일이 포함되어 있어야 하며 최대 7일까지 포함한다는 의미 현재 값 : 7 Distance from center : 중앙으로부터 얼마나 떨어질 것인지 설정합니다. Depth 변수와 동일..

[리트코드] SQL - medium 문제 풀이(#177, #178, #184, #1158, #1393)

SQL 50 섹션에는 포함되지 않지만 sql 쿼리 문제에 해당하는 데이터베이스 문제들입니다. 그 중에서도 medium 난이도만 풀어보겠습니다. #177 Nth Highest Salary n을 입력받고, n번째로 높은 연봉을 반환하는 쿼리를 작성해야 합니다. 사용자 정의 함수를 연습해볼 수 있는 문제입니다. CREATE FUNCTION getNthHighestSalary(N INT) -- 1 RETURNS INT -- 2 BEGIN declare answer int; -- 3 set answer = N-1; -- 4 RETURN ( -- 5 select distinct salary from employee order by salary desc limit answer, 1); END 1 : 함수 이름(get..

Data/SQL 2024.03.14

SQL 정규표현식 with 해커랭크 문제 풀이

봐도봐도 헷갈리는 sql 정규표현식 문법 정리할 겸 포스팅을 해보겠습니다. 정규표현식 기본적인 정규표현식은 아래와 같습니다. 표현식 의미 abc 알파벳 123 숫자 \d 어떤 숫자라도 상관없음 \D 어떤 숫자가 아닌 문자도 상관없음 \w 어떤 알파벳이라도 상관없음 \W 어떤 알파벳이 아닌 문자라도 상관없음 \s 어떤 공백이라도 상관없음 \S 어떤 공백이 아닌 문자라도 상관없음 . 무엇이든 \. 점 [abc] a,b,c 중 하나 [^abc] a,b,c 중 어느 것도 아닌 것 [a-z] a부터 z까지 [0-9] 0부터 9까지 반복에 관련된 정규표현식은 다음과 같습니다. 표현식 의미 {m} m번 반복 {m,n} m~n번 반복 * 0번 이상 반복 + 1번 이상 반복 ? 옵션(필수X) 문자열의 모든 패턴이 아닌 ..

Data/SQL 2024.03.11

광고 캠페인 데이터 프로젝트 리뷰④ - 광고료(CPC, CPM) 분석

CPC와 CPM 분석을 통해 같은 대상을 타겟으로 삼는 광고 중 광고 단가가 지나치게 높은 광고의 비율을 파악해보겠습니다. CPC, CPM이란 CPC와 CPM의 정의는 아래와 같습니다 클릭당 비용, CPC : 광고비/클릭수 1000회 노출 비용 , CPM : 광고비/노출수 * 1000 CPC는 전환에 따라 비용을 책정하기 때문에 리스크를 광고 플랫폼이 부담하게 됩니다. CPC가 높은 경우, 광고 소재 등을 변경하여 광고의 매력도를 높여 전환을 증가시킴으로써 단가를 낮춰야 합니다. 반면, CPM은 전환과 관계없이 노출에 따라 비용을 책정하기 때문에 리스크를 고객사가 부담하게 됩니다. CPM이 높은 경우, 유사 타겟에게도 광고가 노출되도록 리타게팅으로 타겟팅 모수를 확장하여 단가를 낮춰야 합니다. CPM 분..

광고 캠페인 데이터 프로젝트 리뷰③ - CTR, CVR 분석

오늘부터는 주요 분석 내용에 대해 다루려고 합니다. 주요 분석은 오늘 포스팅을 포함하여 2개의 포스팅으로 구성되어 있습니다. CTR, CVR 분석 : 같은 대상을 타겟으로 삼는 광고 중 타게팅 옵션이 잘못 설정되었거나 매력도가 낮은 광고의 비율은 어느 정도인가 CPC, CPM 분석 : 같은 대상을 타겟으로 삼는 광고 중 광고 단가가 지나치게 높은 광고의 비율은 어느 정도인가 CTR, CVR 이란 우선 CTR과 CVR의 정의는 아래와 같습니다. 클릭률, CTR : 클릭수 / 노출수 * 100 전환율, CVR : 구매수 / 클릭수 * 100 CTR이 높고 CVR이 낮은 경우, 광고에 노출된 타겟이 광고를 클릭하는 비율은 낮지만 타겟이 구매로 이어지는 비율은 높다는 의미입니다. 이는 타겟팅 옵션이 잘못 설정된..

광고 캠페인 데이터 프로젝트 리뷰② - 파생변수 및 기술통계량 계산하기

지난 포스팅에 이어 광고 캠페인 데이터 프로젝트 리뷰 포스팅입니다. 지난 번에는 아이디 간 관계를 파악하는 과정에 대해 다루었습니다. 2024.02.23 - [프로젝트 리뷰/개인 프로젝트] - 광고 캠페인 데이터 프로젝트 리뷰① - 아이디 간 관계 파악하기 분석 내용 정하기 이후 도메인 지식을 갖춘 친구의 도움을 받아 분석 내용을 정하고, 각 분석에 필요한 지표(파생변수)를 정의하였습니다. 주요 분석 내용은 아래와 같습니다. 같은 대상을 타겟으로 삼는 광고 중 타게팅 옵션이 잘못 설정되었거나 매력도가 낮은 광고의 비율은 어느 정도인가 사용 변수 : 성별, 연령대, 클릭률(파생), 전환율(파생) 클릭률, CTR : 클릭수 / 노출수 * 100 전환율, CVR : 구매수 / 클릭수 * 100 같은 대상을 타..

[BOAZ] ADV 기업 연계 프로젝트 리뷰④ - 미팅

기업 연계 프로젝트 리뷰 시리즈의 마지막 포스팅입니다. 컨택이 기업 연계 프로젝트의 시작이라면 미팅은 프로젝트의 마지막이라고 할 수 있는데요, 오늘은 미팅할 때 어떤 걸 준비하고 어떤 걸 신경썼는지 기록해보려고 합니다. 저희는 총 4번에 걸쳐 미팅을 진행하였습니다. 1차 미팅 : 분석 제안서 기반 PT 및 데이터 제공 계약서 작성 2차 미팅 : 관계자 변경으로 인한 분석 제안서 기반 PT(재) 3차 미팅 : 분석 결과 1차 공유 4차 미팅 : 분석 결과 최종 공유 1차 미팅 컨택 이후 처음으로 진행하는 미팅이었는데요, 저희가 보내드렸던 제안서를 기반으로 어떤 분석을 진행할지 설명드렸습니다. PT 이후에는 데이터 제공 협의 및 상호 질의응답을 진행하였습니다. 데이터 제공 협의 : 제공 가능한 데이터는 어떤..

데이터 분석 플랫폼 Mode 사용 후기

얼마 전, sql을 사용한 데이터 분석 프로젝트를 위해 mode를 사용했습니다. mode에서는 sql말고도 R, Python 등을 사용해볼 수 있습니다. Modern Business Intelligence | Better data, better decisions Mode is a collaborative data platform that combines SQL, R, Python, and visual analytics in one place. Connect, analyze, and share, faster. mode.com 저는 mode에서 제공하는 kag_conversion_data를 사용했는데요, 오늘 포스팅에서는 mode 내장 데이터를 사용하여 데이터 분석을 하는 방법과 사용 후기에 대해 다뤄보겠습..

기타 정보 2024.02.17
반응형