전체 글(187)
-
프로그래머스 SQL LEVEL4 "우유와 요거트가 담긴 장바구니"
문제 설명CART_PRODUCTS 테이블은 장바구니에 담긴 상품 정보를 담은 테이블입니다. CART_PRODUCTS 테이블의 구조는 다음과 같으며, ID, CART_ID, NAME, PRICE는 각각 테이블의 아이디, 장바구니의 아이디, 상품 종류, 가격을 나타냅니다.IDINTCART_IDINTNAMEVARCHARPRICEINT데이터 분석 팀에서는 우유(Milk)와 요거트(Yogurt)를 동시에 구입한 장바구니가 있는지 알아보려 합니다. 우유와 요거트를 동시에 구입한 장바구니의 아이디를 조회하는 SQL 문을 작성해주세요. 이때 결과는 장바구니의 아이디 순으로 나와야 합니다.문제 요구사항-- 장바구니 아이디 조회 -- 우유와 요거트 동시 구입한 장바구니 -- 장바구니 아이디 순 쿼리문SELECT CART_..
2025.07.19 -
[클러스터링] 클러스터링 알고리즘 정리
1. 분할 기반 클러스터링 (Partitioning-based)K-means원리: 중심점 기반으로 클러스터를 형성 장점:간단하고 빠름구현이 쉬움큰 데이터셋에 효율적단점:K 값을 미리 정해야 함구형 클러스터만 잘 찾음초기값에 민감이상치에 취약사용 예시: 고객 세분화, 이미지 압축K-medoids (PAM)원리: 실제 데이터 포인트를 중심점으로 사용 장점:이상치에 더 강건임의 거리 척도 사용 가능단점:K-means보다 느림여전히 K를 미리 정해야 함K-modes / K-prototypes원리: 범주형 데이터용 K-means 변형 장점:범주형 데이터 처리 가능혼합 데이터 타입 지원단점:알고리즘이 복잡모드 계산 비용2. 계층적 클러스터링 (Hierarchical)응집형 (Agglomerative)원리: 개별 점..
2025.07.01 -
[시계열] 시계열 모델링 프로세스
모델링 프로세스1단계: 문제 정의예측 목표 명확화 (단기/장기, 점 예측/구간 예측)데이터 수집 주기 및 예측 주기 결정비즈니스 제약사항 파악2단계: 데이터 준비데이터 품질 검사 및 정제결측치 처리 전략 수립이상치 탐지 및 처리3단계: 모델링 전략단순 → 복잡: 기본 모델부터 시작앙상블: 여러 모델 조합으로 성능 향상계층적 모델링: 전체 → 세부 단위 예측4단계: 모델 비교동일한 검증 방법으로 공정 비교통계적 유의성 검정비즈니스 관점에서 실용성 평가5단계: 운영 및 모니터링모델 성능 지속적 모니터링컨셉 드리프트 탐지재학습 주기 설정6. 모델 선택 가이드데이터 특성별 추천규칙적 패턴: ARIMA/SARIMA복잡한 비선형: LSTM, Transformer빠른 프로토타이핑: Prophet대용량 데이터: 머신러..
2025.07.01 -
[시계열] 시계열 알고리즘 정리
ARIMA 설명: 과거 값과 오차를 이용해 미래 예측장점: 이론적 기반 탄탄, 해석 쉬움, 적은 데이터로도 가능단점: 선형관계만 처리, 복잡한 패턴 한계Exponential Smoothing 설명: 최근 데이터에 더 큰 가중치를 주어 예측장점: 매우 간단, 빠른 계산, 실시간 예측 적합단점: 복잡한 패턴 처리 어려움, 장기 예측 부정확Seasonal Decomposition 설명: 시계열을 트렌드/계절성/잔차로 분해장점: 데이터 구조 명확히 파악, 전처리에 유용단점: 예측 모델 아님, 정적 패턴만 처리SARIMA (Seasonal ARIMA)설명: ARIMA에 계절성을 추가한 모델, SARIMA(p,d,q)(P,D,Q)s로 표현s는 계절 주기 (예: 월별 데이터면 s=12)(P,D,Q)는 계절성 부분의 ..
2025.07.01 -
[앙상블] Latest Ensemble Model
1. 멀티레벨 스태킹 (Multi-Level Stacking)멀티레벨 스태킹은 스태킹의 확장으로 스태킹을 여러 레이어에 적용하는 기법이다. 멀티레이어 스택은 여러 층의 베이스 모델을 사용하며, 중첩된 스택을 통해 달성할 수 있다.작동 원리:Level 0: 원본 데이터로 학습하는 베이스 모델들Level 1: Level 0 모델들의 예측을 입력으로 받는 메타 모델Level 2: Level 1 모델들의 예측을 입력으로 받는 최종 모델최신 연구 사례: 2025년 연구에서 급성 뇌졸중 환자의 입원 기간 예측을 위해 SHAP 기반의 설명 가능한 멀티레벨 스태킹 앙상블 모델이 개발되었으며, 허혈성 뇌졸중에서 AUC 0.843을 달성했다.장점점진적 성능 향상: 각 레벨에서 이전 레벨의 오류를 보정하여 단계적으로 성능 ..
2025.07.01 -
[머신러닝] Base Ensemble
기본 앙상블 기법들1. 배깅(Bagging) - Bootstrap Aggregating작동 원리:원본 데이터에서 복원 추출로 여러 개의 부트스트랩 샘플 생성각 샘플로 독립적인 모델 훈련회귀: 평균, 분류: 다수결 투표로 최종 예측장점:과적합 방지 효과모델의 분산(variance) 감소병렬 처리 가능대표 모델: Random Forest2. 부스팅(Boosting)작동 원리:약한 학습기(weak learner)들을 순차적으로 훈련이전 모델의 오류에 가중치를 두어 다음 모델이 집중하도록 함최종적으로 가중 투표로 결합장점:편향(bias) 감소높은 예측 성능점진적 학습대표 모델: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost3. 스태킹(Stacking)작동 ..
2025.07.01