Data/Python 4

GPU 없이 생성형 AI 사용하기 - Pandasai 사용 방법 & 후기

오늘은 OpenAI에서 개발한 생성형 AI 라이브러리, Pandasai 사용 방법과 후기에 대해 적어보겠습니다.먼저 Pandasai는 Pandas DataFrame 데이터의 시각화, 전처리, 분석을 프롬프트 형태로 할 수 있도록 도와주는 라이브러리입니다.Pandasai는 생성형 AI처럼 프롬프트를 입력하는 방식으로 작동됩니다.기존의 chatGPT나 최근의 딥시크와 같은 생성형 AI와의 차이점은 코드 안에서 바로 실행이 가능하다는 것입니다.사용하는 방법도 비교적 간단하기 때문에 쉽게 따라하실 수 있을 것 같아요. How toOpenAI에서 신용카드(해외 결제 가능)를 등록 : https://platform.openai.com/settings/organization/billing/payment-methods..

Data/Python 2025.02.12

좌표별 가장 가까운 지하철역 계산하기 (cKDtree, haversine)

최근에 진행한 공모전에서 특정 좌표와 가장 가까운 지하철역/버스정류장을 계산할 일이 있었습니다. 기준이 되는 좌표가 M개이고, 지하철역/버스 정류장이 N개라면 M X N번의 반복문 루프를 돌려야합니다. 연산 시간을 줄이기 위해 챗GPT를 열심히 돌리고 구글을 뒤진 결과, KDtree를 함께 사용하면 된다는 것을 알았습니다. 데이터 준비 M개의 가게와 가장 가까운 지하철역을 구한다고 가정하겠습니다. 후보가 될 수 있는 지하철은 N라고 가정합니다. 좌표 데이터 확보(위도, 경도) 가게와 지하철역의 좌표가 모두 필요합니다. 지하철역 좌표는 공공데이터셋으로 구축이 되어 있지만, 가게의 좌표를 구하기 위해서는 지오코딩을 실시해야합니다. 지오코딩 과정은 생략하겠습니다. 가게 데이터셋에는 '가까운 지하철역'과 '거리..

Data/Python 2023.07.28

[텍스트마이닝] 자연어 네트워크 분석 및 시각화

최근 팀원들과 함께 전주시 공모전에 나갔었는데요, 저는 네트워크 분석을 담당했습니다. 결과적으로 수상은 하지 못했지만, 텍스트마이닝에 대해서 좀 더 공부할 수 있었습니다. 오늘은 연관규칙 분석과 동시출현빈도를 기준으로 네트워크 분석을 진행하는 법에 대해서 포스팅해보겠습니다. 공모전에서는 두 가지를 모두 사용해봤지만, 시각적인 결과를 고려하여 동시출현빈도만을 보고서에 포함시켰어요. 연관규칙 분석 연관규칙 분석은 주로 매출 데이터를 분석할 때 사용합니다. 어떤 상품이 함께 구매되는지 파악하는 것인데요, 이를 텍스트에 적용한다면 어떤 키워드가 함께 나타나는지를 파악할 수 있습니다. 연관규칙 분석을 위해서는 단어 2차원 리스트가 있어야 합니다. 데이터프레임 내 문장 컬럼을 단어 2차원 리스트로 바꾸기 위해서는 ..

Data/Python 2023.07.24

셀레니움 없이 네이버 블로그 검색 결과 수집하기 (API & beautifulsoup)

저는 최근에 여러 공모전에 출전하고 있는데요, 그 중 한 공모전에서는 SNS 분석을 요구했습니다. 그렇지만 트위터 API는 올해 2월부터 유료화가 되었고, 인스타그램은 사진 위주라서 텍스트마이닝이 어렵고, 페이스북은 UI가 너무 어렵고.. 이런저런 고민이 많았어요. 결국 수집이 용이한 네이버 블로그를 분석하기로 했습니다. 저는 네이버 API와 Beautifulsoup를 통해 포스팅을 수집했는데요, 오늘은 그 과정에 대해서 포스팅해보려고 합니다. 네이버 API 발급받기 1. 네이버 개발자 센터로 이동 및 로그인 NAVER Developers 네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, ..

Data/Python 2023.07.08
반응형