전체 글(187)
-
건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 AI 경진대회
이번 프로젝트는 한솔데크에서 주관하는 건설공사 데이터를 활용한 대응책 생성 AI 개발이다. 데이터 정보는 다음과 같다. Dataset Info.train.csv [파일] - 학습 가능ID : 샘플별 고유 ID발생일시사고인지 시간날씨기온습도공사종류연면적층 정보인적사고물적사고공종사고객체작업프로세스장소부위사고원인재발방지대책 및 향후조치계획 건설안전지침 [폴더] - 학습 가능104개의 건설안전지침 PDF test.csv [파일]ID : 샘플별 고유 ID발생일시사고인지 시간날씨기온습도공사종류연면적층 정보인적사고물적사고공종사고객체작업프로세스장소부위사고원인 train데이터를 활용해서 각 인적사고 칼럼의 데이터 값을 기준으로 대응책 텍스트를 그룹화 하였으며, 코사인 유사도를 사용하여 가장 각 그룹마다 가장 유사도가 높..
2025.03.21 -
[Newspelling] 뉴스 키워드 추출 프로젝트 - 웹페이지 개발
뉴스의 키워드를 랭킹순으로 가져와서 그래프로 시각화를 하고, 원하는 키워드는 기사로 이동할수있는 웹페이지를 개발하는것이 목적이다.사용자의 백엔드는 Render 클라우드를 통해 생성한 아래의 파일들을 실행 및 python으로 작성이된 app.py(기능)을 실행하게 된다. 1. requirements.txt 생성 필요한 버전 모음Flask==2.0.3flask-cors==3.0.10werkzeug==2.0.3pandasfeedparserrequestsnumpypsycopg2-binarykrwordrank==1.0.3konlpy==0.6.0JPype1==1.5.2yake==0.4.8 2. app.py 생성데이터 수집 부터 데이터 전처리 및 모델적용까지 일련의 과정을 담은 파이썬 코드 3. 불용어.txt 텍스트..
2025.03.09 -
[Newspelling]뉴스 키워드 추출 프로젝트 - 데이터 전처리 및 모델 선택
데이터 전처리불용어.txt 다운로드불용어.txt : 불용어를 모아놓은 텍스트 문서 1. 불용어.txt 파일을 읽어 쉼표(,) 기준으로 단어를 분리# 불용어 로드: 파일에서 쉼표로 구분된 단어들을 읽고 strip()으로 공백 제거with open('불용어.txt', 'r', encoding='utf-8') as f: raw_text = f.read()raw_stopwords = raw_text.split(',')stopwords = [w.strip() for w in raw_stopwords if w.strip()] 2. 필요에 따른 추가적인 불용어 추가 : extra_stopwords = ["종합", "포토", "영상", "게시판"]for word in extra_stopwords: if wo..
2025.03.09 -
[Newspelling] 뉴스 키워드 추출 프로젝트 - 문제정의 및 데이터 수집
문제정의 키워드의 이해 / 키워드 맥락 부분의 문제 해결 필요 데이터 수집실시간 데이터를 수집하기 위해, RSS URL을 통해서 뉴스 텍스트 데이터 수집을 진행한다. RSS의 네트워크는 3개의 주용한 컴포넌트로 구성이 되어져 있다. 1)컨텐츠 제공자 (Content Provider)는 각 제공 뉴스 정보와 자신의 정보에 관한 RSS 파일을제공한다.2)수집자 (Content Aggregator)는 다양한 경로를 통해 RSS 정보를읽거나 수집하는 콘텐츠 수집자 (Content Aggregator)로서 인덱스를 수집하고 그 인덱스를 통해 화제가 되는 특정 뉴스의 헤드라인을 수집하고 제공한다.3)헤드라인 뷰어 (Headline Viewer)는 이용자가 RSS 리더 프로그램을 통하며 콘텐츠를 제공 받고 읽을 수..
2025.03.09 -
기타 전처리 기법
1. 월, 일 ,시간으로 나누기#시계열 특성을 학습에 반영하기 위해 timestamp를 월,일,시간으로 나눈다.train_df['year'] = train_df['timestamp'].dt.yeartrain_df['month'] = train_df['timestamp'].dt.monthtrain_df['day'] = train_df['timestamp'].dt.day 2. 연기준 일자 수 세기# 연 기준 며칠 째인지train_df['day_of_year'] = train_df['timestamp'].dt.dayofyeartest_df['day_of_year'] = test_df['timestamp'].dt.dayofyear timestamp 열에서 연도 기준 몇 번째 날(day of year)인지 추출하..
2025.03.01 -
[DA 프로젝트] 주택 수리 요청 처리 프로세스 분석 및 개선 : 프로세스 마이닝
네덜란드 임대 주택 기관의 집 수리 요청 처리 프로세스 데이터 하나의 case id 는 하나의 요청을 말한다. 각 접수 번호에 대해서 여러 task id 업무를 각 resource(작업자) 가 수행함으로써 프로세스가 진행된다. o caseID: 집 수리 요청 접수 번호o taskID: 업무o originator: 업무 담당자o eventtype: 업무의 시작(start)과 끝(complete)을 표시. o contact: 집 수리 요청의 요청 채널.o RepairType: 수리 방식.o objectKey: 수리 대상 집 key.o RepairInternally: 내부 수리 여부.o EstimatedRepairTime: 예상 수리 시간.o RepairCode: 수리 종류..
2025.02.21