반응형
앞으로 데이터 품질관리와 관련된 용어를 정리해보려고 합니다. 오늘은 model drift와 data silo에 대해 정리해봤어요.
Model Drift
모델을 배포한 이후, 시간이 지남에 따라 모델 성능이 저하되는 현상
- 원인 : 데이터가 현실의 패턴을 반영하기 못하기 때문에
- 영향 : Outdated된 모델로 인하여 부정확한 예측으로 이어질 수 있다.
- 해결 방법 : 일정 주기마다 모델을 재학습하거나 알고리즘을 수정, 유입되는 데이터의 분포를 자동적으로 트래킹
- 유형
- Data Drift(Covariate Shift) : 시간이 지남에 따라 input의 분포가 변함
- Sample Selection Bias : 학습 데이터를 구성할 때 bias가 존재하여 모델이 test 데이터를 충분히 반영하지 못함
- Non-Stationary Environments : 시간이나 공간의 변화로 학습 환경과 test 환경의 차이가 발생함
- Upstream Data changes : 데이터 처리 시 변화(측정 단위의 변화 등)
- Label Drift(Prior Probability Shift) : 시간이 지남에 따라 target의 분포가 변함
- Concept Drift : 시간이 지남에 따라 input - target의 관계가 변함
- sudden drift : 예측하지 못한 외부 사건에 의해 갑작스럽게 발생
- gradual drift : 계절성 변화 등 영향이 뚜렷하게 나타나기까지 오랜 시간이 걸림
- Incremental Drift : 오래된 concept이 시간이 지남에 따라 점진적으로 변화
- reoccurring concept : 특정 시간에 주기적으로 발생하는 유형. 발생 주기를 예측하기 어려움
- Data Drift(Covariate Shift) : 시간이 지남에 따라 input의 분포가 변함
Data Silo
특정 부서나 팀이 독립적으로 운영되며 각 팀이 보유한 데이터가 고립된 상태
- 원인
- 부서 간 소통 부족
- 기술적인 장벽 : 서로 다른 시스템을 사용하여 데이터 공유가 어려움
- 경쟁적인 조직 문화로 정보를 잘 공유하지 않음
- 영향
- 비효율적인 의사결정 : 의사결정을 내릴 때 필요한 정보를 찾기 어려움. 잘못된 판단을 하거나 중요한 기회를 놓칠 수 있음
- 부서 간 협업 저해 : 필요한 정보를 공유하지 않기 때문에 협업이 저해됨. 프로젝트 진행 속도를 늦추고 결과물의 질에도 영향을 미칠 수 있음
- 정보의 중복과 불일치 : 동일 데이터를 다르게 해석하거나 관리하는 경우, 신뢰성있는 데이터를 확보하기 어려움
- 해결 방법
- 조직 문화 개선하기 : 소통과 협력을 장려
- 정보 공유 촉진 : 정기적인 회의를 통해 각 부서에서 어떤 데이터를 가지고 있는지 공유
- 팀워크 강화 : 다양한 팀이 함께 작업할 기회를 제공하여 자연스럽게 정보 교환 유도
- 적절한 협업 시스템 도입하기
- 클라우드 기반 솔루션 사용 : 모든 직원이 접근 가능한 중앙화된 플랫폼 이용, 데이터 관리
- API 연동 활용 : 서로 다른 시스템 간 데이터를 쉽게 전송하고 통합할 수 있도록
- 정기적인 교육 실시
- 워크숍 개최 : 최신 기술이나 도구에 대한 워크숍을 통해 새로운 방법으로 정보를 관리하도록 도움
- 베스트 프렉티스 공유 : 성공 사례를 통해 다른 직원도 효과적으로 정보를 관리하고 활용할 수 있도록 함
- 조직 문화 개선하기 : 소통과 협력을 장려
reference
[Model Drift] Model Drift에 대한 A to Z # 1. 정의와 유형
Model Drift Introduction 대부분의 머신러닝 모델들이 가정하는 강력한 전제는 indepedent identical data입니다. 즉, 머신러닝 모델들은 모델이 학습한 패턴들이 변하지 않는 것을 가정합니다. 하지만 실제
calmmimiforest.tistory.com
데이터 사일로(data silo) 문제와 해결 방안
안녕하세요! 오늘은 많은 기업들이 겪고 있는 '데이터 사일로'에 대해 이야기해보겠습니다. 데이터가 전체적으로 통합되지 않고 개별 부서나 사업 부문별로 활용되는 현상인 데이터 사일로는
rcoding.tistory.com
'POV : Point of View > Analyst' 카테고리의 다른 글
데이터 품질관리(2) - 데이터 민주화 (0) | 2025.04.07 |
---|