문서 간의 유사도를 계산할 때는 주로 코사인 유사도를 사용합니다. 자연어 외의 데이터 간 유사도를 계산할 때는 유클리드 거리, 해밍 거리 등을 사용합니다. 유사도 계산 방법이야 구글링하면 나오지만, 유사도를 어떻게 활용할지는 항상 고민이 되더라구요. 유사도가 높다/낮다를 구분할 수 있는 명확한 기준이 있는 것도 아니고 유사도가 높다고 해서 무조건 좋은 것도 아니기 때문에 분석 목적을 잘 고려해야 합니다. 제가 유사도를 활용했던 방법은 아래와 같습니다. 유사한 콘텐츠 추천 사용 데이터 : 문서(자연어) 사용자가 선택한 콘텐츠와 유사한 콘텐츠를 추천하였습니다. 추천에 사용하는 매트릭스 규모를 줄이기 위해서 콘텐츠 간의 유사도 매트릭스를 구한 뒤, 각 콘텐츠와 유사도가 가장 높은 10개 콘텐츠를 따로 저장하였..