전체 글(187)
-
[머신러닝] 머신러닝 알고리즘 정리
트리 알고리즘 Random ForestRandom Forest Random Forest는 배깅(Bagging)과 랜덤 특성 선택을 결합한 앙상블 기법이다. 작동 원리는 다음과 같다:부트스트랩 샘플링: 원본 데이터에서 복원 추출로 여러 개의 훈련 세트를 생성한다랜덤 특성 선택: 각 노드에서 전체 특성 중 일부만 랜덤하게 선택하여 분할 기준을 결정한다투표 방식: 분류에서는 다수결, 회귀에서는 평균으로 최종 예측을 한다장점: 과적합 방지 효과가 뛰어나고, 특성 중요도를 제공하며, 결측치가 있어도 비교적 안정적단점: 개별 트리보다 해석성이 떨어지고, 메모리 사용량이 많다는 점 CatBoostCatBoost는 Yandex에서 개발한 그래디언트 부스팅 알고리즘으로, 범주형 변수 처리에 특화되어 있다:순서 부스팅: ..
2025.07.01 -
AutoGluon: AutoML 프레임워크
AutoGluon은 Amazon Web Services(AWS)에서 개발한 AutoML(Auto Machine Learning) 프레임워크이다. 복잡한 하이퍼파라미터 튜닝, 모델 앙상블, 데이터 전처리 등의 과정을 자동으로 수행해주며, 초보자부터 전문가까지 쉽게 활용할 수 있도록 설계되었다. 1. AutoGluon의 특징① 코드 몇 줄로 강력한 성능AutoGluon은 단 몇 줄의 코드만으로도 강력한 베이스라인 모델을 빠르게 생성할 수 있다. fit() 함수를 통해 전처리, 모델 학습, 앙상블, 검증까지 자동으로 수행되므로 생산성이 매우 높다.② 다양한 모델 앙상블랜덤포레스트, XGBoost, LightGBM, CatBoost, 신경망 등 다양한 알고리즘을 자동으로 탐색하고 앙상블한다. 이로 인해 단일 모..
2025.06.11 -
[SQL] Apple 소매 판매 분석 쿼리
이번주에는 pcsql 과 sqld 자격증 시험 준비를 위해서 쿼리문 실습과 문제풀이를 통해 sql 데이터 분석을 진행하였다. 애플 소매 판매 데이터 분석을 위해 쿼리문을 통해 테이블을 생성하였다. 데이터 테이블 생성1. stores 테이블: 매장 정보 관리create table stores( store_id varchar(10) primary key, store_name varchar(30), city varchar(30), country varchar(30));stores 테이블은 제품이 판매되는 매장의 정보를 저장한다. 매장 고유 식별자인 store_id를 기본키로 사용하며, 매장 이름(store_name), 도시(city), 국가(country) 등의 정보를 함께 관리한다. 2. cate..
2025.05.22 -
[Excel] 서울 날씨 데이터 분석
상관분석데이터 -> 분석 -> 데이터 분석 히스토그램일교차 히스토그램 불쾌지수 계산결과를 표시할 칼럼 선택 (2행 부터 CTR + shift + 아래 화살표) 1행에는 "불쾌지수" 작성시트 바로위 수식 작성 칸에 "=0.81*$C2 + 0.01*$F2*(0.99*$B2 - 14.3) + 46.3" 작성 후 Ctr + enter 2000개의 행만 시각화 빈칼럼의 수식 창에 n1:n23012 입력후 전체 선택 -> 삽입 -> 막대 차트 월별 불쾌지수 계산월은 A열에 있음. A열의 1000번째 행까지만 사용 이름상자 클릭 -> 결과를 표시할 칼럼지정후 (P1:P1000) 입력 -> =month(a1) 입력후 ctrl + enter 삽입 -> 피벗테이블 선택 -> 테이블/범위에서 -> 불쾌지수, 월정보 칼럼 ..
2025.04.13 -
[Excel] Excel 데이터 분석 2
Excel에서 통계분석엑셀 통계분석은 엑셀의 데이터 분석 도구에서 실행할 수 있습니다.*엑셀 데이터 분석 도구- 만약 엑셀의 데이터 분석 도구 항목이 보이지 않는다면 아직 활성화되지 않았을 가능성이 큽니다.따라서 엑셀 실행 후 파일 탭 - 옵션 항목에서 추가기능 항목을 들어가, 분석 도구 팩을 선택하여 이동버튼을 클릭합니다.- 대화상자가 열리면 분석 도구 팩에 체크한 후 확인 버튼을 클릭합니다. 다음과 같은 과정을 거치면엑셀 메인 화면에 데이터 탭 내에 데이터 분석 항목이 추가되었음을 확인할 수 있을 것입니다. *주의사항*통계분석에는 숫자로 이루어진 행만 가능합니다. 따라서 숫자로 이루어져있지 않지만, 변환이 가능한 칼럼 (시간, 소수점 등) 은 셀 서식에서 숫자로 바꿔주어야 합니다.통계 분석 칼럼을 입..
2025.04.13 -
[PostgreSQL] sqlalchemy 라이브러리를 활용한 데이터 추출 실습
이번 포스트에는 Render Cloud Platform 에서 PostgreSQL을 생성하고 데이터를 적재 후, python에서 sqlalchemy 라이브러리를 활용해서 데이터를 추출하는 실습 과정을 포스팅하려고 한다. 1. Render Cloud Platform 에서 PostgreSQL을 생성 2. Python에서 csv파일을 데이터베이스에 적재하기import pandas as pdfrom sqlalchemy import create_enginefrom sqlalchemy import text# 1. 데이터베이스 연결DATABASE_URL = "_____"engine = create_engine(DATABASE_URL)# 2. CSV 경로csv_path = r"train.csv"df = pd.read..
2025.03.28