Data Science Project(16)
-
건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 AI 경진대회
이번 프로젝트는 한솔데크에서 주관하는 건설공사 데이터를 활용한 대응책 생성 AI 개발이다. 데이터 정보는 다음과 같다. Dataset Info.train.csv [파일] - 학습 가능ID : 샘플별 고유 ID발생일시사고인지 시간날씨기온습도공사종류연면적층 정보인적사고물적사고공종사고객체작업프로세스장소부위사고원인재발방지대책 및 향후조치계획 건설안전지침 [폴더] - 학습 가능104개의 건설안전지침 PDF test.csv [파일]ID : 샘플별 고유 ID발생일시사고인지 시간날씨기온습도공사종류연면적층 정보인적사고물적사고공종사고객체작업프로세스장소부위사고원인 train데이터를 활용해서 각 인적사고 칼럼의 데이터 값을 기준으로 대응책 텍스트를 그룹화 하였으며, 코사인 유사도를 사용하여 가장 각 그룹마다 가장 유사도가 높..
2025.03.21 -
[Newspelling] 뉴스 키워드 추출 프로젝트 - 웹페이지 개발
뉴스의 키워드를 랭킹순으로 가져와서 그래프로 시각화를 하고, 원하는 키워드는 기사로 이동할수있는 웹페이지를 개발하는것이 목적이다.사용자의 백엔드는 Render 클라우드를 통해 생성한 아래의 파일들을 실행 및 python으로 작성이된 app.py(기능)을 실행하게 된다. 1. requirements.txt 생성 필요한 버전 모음Flask==2.0.3flask-cors==3.0.10werkzeug==2.0.3pandasfeedparserrequestsnumpypsycopg2-binarykrwordrank==1.0.3konlpy==0.6.0JPype1==1.5.2yake==0.4.8 2. app.py 생성데이터 수집 부터 데이터 전처리 및 모델적용까지 일련의 과정을 담은 파이썬 코드 3. 불용어.txt 텍스트..
2025.03.09 -
[Newspelling]뉴스 키워드 추출 프로젝트 - 데이터 전처리 및 모델 선택
데이터 전처리불용어.txt 다운로드불용어.txt : 불용어를 모아놓은 텍스트 문서 1. 불용어.txt 파일을 읽어 쉼표(,) 기준으로 단어를 분리# 불용어 로드: 파일에서 쉼표로 구분된 단어들을 읽고 strip()으로 공백 제거with open('불용어.txt', 'r', encoding='utf-8') as f: raw_text = f.read()raw_stopwords = raw_text.split(',')stopwords = [w.strip() for w in raw_stopwords if w.strip()] 2. 필요에 따른 추가적인 불용어 추가 : extra_stopwords = ["종합", "포토", "영상", "게시판"]for word in extra_stopwords: if wo..
2025.03.09 -
[Newspelling] 뉴스 키워드 추출 프로젝트 - 문제정의 및 데이터 수집
문제정의 키워드의 이해 / 키워드 맥락 부분의 문제 해결 필요 데이터 수집실시간 데이터를 수집하기 위해, RSS URL을 통해서 뉴스 텍스트 데이터 수집을 진행한다. RSS의 네트워크는 3개의 주용한 컴포넌트로 구성이 되어져 있다. 1)컨텐츠 제공자 (Content Provider)는 각 제공 뉴스 정보와 자신의 정보에 관한 RSS 파일을제공한다.2)수집자 (Content Aggregator)는 다양한 경로를 통해 RSS 정보를읽거나 수집하는 콘텐츠 수집자 (Content Aggregator)로서 인덱스를 수집하고 그 인덱스를 통해 화제가 되는 특정 뉴스의 헤드라인을 수집하고 제공한다.3)헤드라인 뷰어 (Headline Viewer)는 이용자가 RSS 리더 프로그램을 통하며 콘텐츠를 제공 받고 읽을 수..
2025.03.09 -
[모델링 프로젝트] 전기차 가격 예측 해커톤
[주제]전기차와 관련된 데이터를 활용하여 전기차 가격을 예측하는 AI 알고리즘 개발 전기차와 관련된 데이터를 활용하여 전기차 가격을 예측하는 AI 알고리즘을 개발 데이터 정보 EDA 결측치 시각화대부분의 결측치가 배터리용량에 존재한다. 결측치 처리를 위한 배터리용량 칼럼 분석배터리용량과 numerical 칼럼들의 상관관계는 약하다고 판단 배터리용량보증기간이 7년 이상이면 유의미하게 길다.brand-new일 경우 배터리용량이 크다Brand-new인 차량 대부분이 보증 기간이 7년 이상이다 결론 : 보증기간 7년 이상 / 7년 미만을 기준으로 배터리용량 데이터를 나누고 결측치 처리 진행 데이터 전처리 1. 결측치 처리보증년도 7년을 기준으로 데이터를 나누고 예측진행랜덤포레스트 ..
2025.01.12 -
제 1회 Medical AI MAI 경진대회
코드소스wonderfulawsome/Medical-AI-MAI-Competition GitHub - wonderfulawsome/Medical-AI-MAI-CompetitionContribute to wonderfulawsome/Medical-AI-MAI-Competition development by creating an account on GitHub.github.com 문제정의목적주어진 이미지 데이터를 분석하여 각 이미지에 대응되는 유전자 발현 정보를 정확히 예측하는 것.데이터의 특징입력 데이터:유전자 발현과 관련된 이미지를 포함하며, 다양한 크기와 스케일의 이미지를 포함.출력 데이터:각 이미지에 대응하는 유전자 발현 값 (다차원 연속형 데이터).문제의 핵심 도전 과제 이미지 학습과 유전자 발현 정..
2024.11.06