data 7

데이터 품질관리(2) - 데이터 민주화

정의 : 모든 구성원이 데이터를 쉽게 업무에 활용하고 data-informed decision을 하는 것규칙구성원이 데이터 관련 질문을 편하게 할 수 있을 것 데이터 리터러시 필수적 : 데이터 민주화의 가장 큰 병목현상(데이터 접근성) 해소 가능 회사가 어떤 데이터를 수집하는지, 어떻게 생긴 데이터인지 누가 어느 데이터에 접근하는지 정의할 것 필요한 데이터 리터러시 역량은 부서의 업무에 따라 다르다모든 사람이 데이터로 일할 수 있는 tool을 제공할 것 전문가는 각자의 tool에만 전문적이다 : 추가적인 데이터 tool에 투자해야한다 Data warehouse BI tool ELT tool Reverse ETL tool데이터 민주화를 진행 중인 프로세스로 볼 것 : 조직 전체의 문화적 변동이 필요할 수도..

데이터 품질관리(1) - Model Drift, Data Silo

앞으로 데이터 품질관리와 관련된 용어를 정리해보려고 합니다. 오늘은 model drift와 data silo에 대해 정리해봤어요. Model Drift모델을 배포한 이후, 시간이 지남에 따라 모델 성능이 저하되는 현상원인 : 데이터가 현실의 패턴을 반영하기 못하기 때문에영향 : Outdated된 모델로 인하여 부정확한 예측으로 이어질 수 있다.해결 방법 : 일정 주기마다 모델을 재학습하거나 알고리즘을 수정, 유입되는 데이터의 분포를 자동적으로 트래킹유형Data Drift(Covariate Shift) : 시간이 지남에 따라 input의 분포가 변함Sample Selection Bias : 학습 데이터를 구성할 때 bias가 존재하여 모델이 test 데이터를 충분히 반영하지 못함Non-Stationary ..

Agent, RAG/CAG 용어 정리

최근의 LLM 소식을 들여다보면 많이 접하는 용어를 가볍게 정리해보았습니다. AI AgentAgent는 직역하면 대리인입니다. AI Agent는 인공지능이 복합적인 맥락을 고려할 수 있도록 설계된 일종의 '대리인'입니다. 시스템적으로 이야기하자면, AI Agent는 사용자의 개입없이 자율적으로 작동하는 지능형 시스템입니다. 기존의 단순 자동화를 넘어 환경을 이해하고 스스로 학습한다는 것이 특징입니다.정의된 규칙을 기반으로 작동하던 AI는 환경 변화에 적응하지 못하고, 정형 데이터만 다룰 수 있다는 한계가 있었습니다. 그러나 AI Agent는 맥락을 이해하고 학습하여 복잡한 문제를 해결할 수 있게 되었습니다.AI Agent의 필요성이 대두된 배경은 팬데믹입니다. 원격 근무와 디지털 전환에 적응하면서도 생산..

Data/ML & DL 2025.03.04

GPU 없이 생성형 AI 사용하기 - Pandasai 사용 방법 & 후기

오늘은 OpenAI에서 개발한 생성형 AI 라이브러리, Pandasai 사용 방법과 후기에 대해 적어보겠습니다.먼저 Pandasai는 Pandas DataFrame 데이터의 시각화, 전처리, 분석을 프롬프트 형태로 할 수 있도록 도와주는 라이브러리입니다.Pandasai는 생성형 AI처럼 프롬프트를 입력하는 방식으로 작동됩니다.기존의 chatGPT나 최근의 딥시크와 같은 생성형 AI와의 차이점은 코드 안에서 바로 실행이 가능하다는 것입니다.사용하는 방법도 비교적 간단하기 때문에 쉽게 따라하실 수 있을 것 같아요. How toOpenAI에서 신용카드(해외 결제 가능)를 등록 : https://platform.openai.com/settings/organization/billing/payment-methods..

Data/Python 2025.02.12

태블로 Radial Bar Chart

각 회사의 시장 점유율을 나타내는 차트입니다.Radial Bar Chart Tutorial - Toan Hoang 를 참고하였으며 Mobile OS Market Share (kaggle.com) 데이터를 사용하였습니다. 데이터 및 변수 준비데이터 준비다운로드한 mobile os market share 데이터에 path 컬럼을 추가해줍니다. 아래 표와 같이 각 데이터가 1과 270을 값으로 가지도록 처리합니다.YearOperatingSystemSharePath2009Android5.5812009Android5.582702009BlackBerry OS14.4212009BlackBerry OS14.422702009iOS59.3512009iOS59.35270이때 1은 시작점의 각도이며, 270은 끝점의 각도입니..

태블로 Gauge Chart

위와 같이 수치를 게이지 형태로 나타내는 차트입니다.https://tableau.toanhoang.com/gauge-chart-with-arrow/ 을 참고하였으며 superstore 데이터를 사용하였습니다. 선택한 연도와 기준 연도의 sales 증가율을 나타내기 위해 아래와 같은 매개변수 및 계산된 필드를 만듭니다.매개 변수 만들기Selected Year과 Comparison year : selected year는 현재값을 2023으로, comparison year는 현재값을 2022로 설정합니다. 이외에는 동일하게 설정합니다. 계산된 필드 만들기원점과의 연결을 위한 필드path : IIF ([Ship Mode]="First Class", 0, 1)  path(bin) : path 클릭 > 만들기 > ..

[해커랭크] SQL certification 취득 후기

지금까지 거의 모든 사이트의 sql 문제를 풀어보았습니다.sql을 연습할 수 있는 다른 방법이 없을까 찾다가 해커랭크의 certification을 취득해보기로 했어요오늘은 3개의 certification을 취득한 후기를 올려보려고 합니다. Basic가장 낮은 단계인 basic입니다.제한 시간 : 30분 / 2문제서브쿼리 및 조건문을 사용해야하는 가벼운 문제약 10분 소요 Intermediate중간 단계 intermediate입니다.제한 시간 : 35분 / 2문제첫 번째 문제는 basic과 비슷한 난이도두 번째 문제는 테이블이 많이 나와서 어려웠어요. 테이블 간 관계를 정리하며 푸시면 좋을 것 같습니다.제한 시간 안에 문제를 다 풀지 못해서 자동으로 제출되었어요. 그런데도 합격이 뜬 걸 보면 제출만 하면 ..

Data/SQL 2024.02.01
반응형