캡스톤 선행연구 분석(주식시장 네트워크에서 클러스터링 기법 응용 연구)

2024. 3. 14. 11:13논문분석

<주식시장 네트워크에서 클러스터링 기법>

1.주식시장 네트워크 분석방법

논문에서 주식시장 네트워크 분석 방법은 복잡계 네트워크를 활용하여 주식시장의 구조와 동작 메커니즘을 이해하고 분석하는 다양한 접근 방식을 포함한다. 이는 주식 간의 관계를 파악하고, 이를 기반으로 주식시장의 복잡한 상호작용을 설명하는 데 목적을 두고 있다. 주식시장 네트워크 분석 방법은 크게 다음과 같은 세 가지 주요 영역으로 구분된다:

  1. 시계열 분석: 시계열 데이터를 이용하여 주식시장의 다양한 현상을 분석하는 방법이다. 여기에는 두터운 꼬리 현상, 변동성 군집 현상, 다중 프랙탈 분석, 거품의 로그주기성 등이 포함된다. 이 방법들은 주식시장의 변동성, 폭등 폭락 현상, 장기 기억 현상 등을 설명하고 예측하는 데 사용된다.
  2. 행위자 기반 모형(ABM): 경제 활동의 주체인 투자자, 기업, 국가 등을 모델링하여 그들의 미시적인 상호작용을 통해 거시적인 시장 변동을 설명하는 방법이다. 산타페 연구소의 인공 주식시장, 양의 되먹임 연구 등이 이 영역에 포함된다. 이 모형은 시장 참여자들의 행동과 전략이 시장의 거시적 변화에 어떻게 영향을 미치는지를 탐구한다.
  3. 복잡 네트워크 분석: 주식시장을 복잡한 네트워크로 보고, 주식 간의 연결 구조와 그 구조가 시장 동작에 미치는 영향을 분석하는 방법이다. 주식 가격 사이의 상관관계를 통해 네트워크를 구성하고, 이를 분석하여 시장의 구조적 특성을 파악한다. 최소 비용 신장 트리(MST) 방법을 이용한 주식 네트워크 구성이 대표적인 예이다.

논문에서는 이러한 분석 방법을 통해 주식시장의 복잡한 구조와 동작 원리를 이해하고, 이를 기반으로 유사한 특성을 가진 주식들을 클러스터링함으로써 효율적인 주식 포트폴리오를 구성하는 방안을 제시한다. 주식시장 네트워크 분석은 시장의 복잡성을 이해하고, 시장 변동성에 대응하는 전략을 수립하는 데 중요한 역할을 한다.

 

2.주식 데이터 수집

논문에서는 주식시장 네트워크 분석을 위해 필요한 주식 데이터의 수집 과정을 포함한다. 이 과정에서는 주식의 일일 가격 변동, 거래량, 재무제표 정보 등 다양한 종류의 데이터가 포함된다. 데이터는 공개적으로 접근 가능한 금융 정보 제공 사이트나 API를 통해 수집한다. 수집된 데이터는 후속 분석의 정확성을 위해 데이터의 정제와 전처리 과정을 거치게 된다.

데이터 활용

1. 연관성 데이터 추출:

수집된 주식 데이터를 바탕으로, 주식 간의 연관성을 추출하기 위한 두 가지 방법이 소개된다.

  • 정렬 알고리즘을 이용한 방법: 주식의 변동률 데이터를 서열화하여 DNA 서열 정렬과 유사한 방식으로 처리한다. 이를 통해 주식 간의 유사성을 정량화하며, 이 과정에서 전역 정렬(Global Alignment) 및 지역 정렬(Local Alignment) 방법이 활용된다.
  • 상관관계 지수를 이용한 방법: 통계적 방법을 활용하여 주식 간의 상관관계를 계산한다. 피어슨 상관계수와 같은 통계적 지표를 사용하여, 주식 간의 선형적 관계의 강도를 측정하며, 이를 통해 주식 간의 연관성을 파악한다.

2. 클러스터링 알고리즘 적용:

연관성 데이터를 바탕으로 클러스터링 알고리즘을 적용한다. 이 과정에서는 유사한 연관성을 가진 주식들을 그룹화하여, 주식시장 내에서 유사한 행동 패턴을 보이는 주식들을 식별한다. 클러스터링에는 K-Means, Hierarchical, Spectral 클러스터링 등 다양한 알고리즘이 사용될 수 있으며, 각 알고리즘의 선택은 데이터의 특성과 분석 목적에 따라 달라질 수 있다.

 

3.클러스터링 알고리즘

클러스터링 알고리즘의 목적

이 연구에서 클러스터링 알고리즘의 주된 목적은 주식 데이터에서 유사한 패턴을 보이는 주식들을 그룹화하여, 투자자가 효율적인 포트폴리오를 구성할 수 있도록 하는 것이다. 이를 통해 투자자는 시장의 다양한 위험에 대응하고, 예상 수익률을 극대화할 수 있는 전략을 세울 수 있다.

사용된 클러스터링 알고리즘

논문에서는 주로 세 가지 유형의 클러스터링 알고리즘을 사용하여 주식시장 데이터를 분석한다:

  1. K-Means 클러스터링: 가장 널리 사용되는 클러스터링 기법 중 하나로, 데이터 포인트들을 K개의 클러스터로 그룹화한다. 이 과정에서 각 클러스터 내의 데이터 포인트들은 클러스터의 중심(centroid)에 가능한 가깝도록 배치된다. K-Means는 주식시장 데이터에서 유사한 수익률 패턴을 보이는 주식들을 그룹화하는 데 사용된다.
  2. Hierarchical 클러스터링: 계층적 구조를 가지는 클러스터를 형성하는 방법으로, 개별 데이터 포인트부터 시작하여 점차 클러스터를 합쳐가며 상위 클러스터를 형성한다. 이 방법은 주식 간의 상세한 유사성과 계층 구조를 파악하는 데 유용하다.
  3. Spectral 클러스터링: 데이터 포인트 간의 연결성(affinity)을 기반으로 클러스터를 형성하는 방법으로, 주식시장 데이터의 복잡한 구조를 더 잘 반영할 수 있다. Spectral 클러스터링은 데이터 간의 관계를 그래프로 모델링하여 클러스터링을 수행한다.

4.클러스터링 프로세스

클러스터링 프로세스는 다음 단계로 구성된다:

  1. 데이터 준비: 주식시장으로부터 수집된 데이터는 전처리 과정을 거쳐 클러스터링에 적합한 형태로 변환된다. 이 단계에서는 누락 데이터 처리, 정규화, 차원 축소 등이 수행될 수 있다.
  2. 클러스터링 실행: 전처리된 데이터에 대해 선택된 클러스터링 알고리즘이 적용된다. 이 과정에서 주식들은 유사한 특성을 공유하는 그룹으로 분류된다.
  3. 결과 분석 및 해석: 형성된 클러스터들은 분석되어 각 클러스터가 가지는 고유한 특성이 파악된다. 이 정보는 포트폴리오 구성, 투자 전략 수립 등에 활용된다.

 

 

상관관계 지수를 이용하여 연과성 데이터를추출한뒤 K-means클러스터링을 진행한다.

 

5.클러스터링 결과 

클러스터링 알고리즘을 통해 각 기업이 특정 클러스터에 속하게 된다. 주가의 패턴이 비슷한 기업이 한 클러스터에 모이게 된다. 이를 알아보기 위해 2007년 1월 2일 부터 2007년 12월 28일 까지 약 1년 동안 약 120개의 기업을 대상으로 연관성 정보를 이용한 클러스터링을 한 후 각 클러스터별 기업들의 주가 변화를 그래프로 나타내어 보았다. 그 결과는 그림 같다.

그림을 보면 각 클러스터에 속한 기업들의 주가 변화가 아주 유사한 것을확인할 수 있다. 본 논문에서는 동일한 클러스터에 속한 기업은 동일한 성향을 가진것으로 간주한다. 그래서 가장 안정적인 수익률을 얻는 클러스터를 분석하고 그 클러스터를 중심으로 포트폴리오를 추천한다.

수익률은 표 3.4와 같이 살펴본다. 표 3.4는 KOSPI 2005년 2월부터 7월까지의자료를 통해 클러스터링하고 각 클러스터의 기업에 2005년 8월 부터 6개월간 투자했을 때 얻는 수익률을 계산한 표이다. 이런 방식으로 2004년, 2006년 또한 수익률 계산을 하였다. 그리고 2005년 주식 데이터를 기반으로 각 클러스터에 속한기업의 개수에 대한 수익률을 살펴보다. 그 결과는 표3.5와 같다.표 3.5에서 기업의 수가 아주 적은 1행을 살펴보면 수익률이 안정적이지 않고상승과 하락의 차이가 아주 큰 것을 볼 수 있다. 또한 기업 기업의 수가 많은 클러스터의 경우는 뛰어난 수익률을 보이지 못했다. 수익률에 강세를 보인것은 기업의 수가 가장 적은 것에서 한단계 높은 2행기업의 수가 가장 많은 클러스터에서 한단계 낮은 9행이었다. 이를 토대로 우리는 클러스터에 속한 기업의 개수가 2번째로 적은 것과 2번째로 많은 클러스터를 추천 클러스터로 선정하였다.

 

이 논문에서는 KMEANS 클러스터링을 통해 상관성이 높은 주식들을 군집화하여 

안정적 수익률의 클러스터 종목들로 포트폴리오 최적화를 진행하였다.

 

이 선행연구에서 보완하여

캡스톤 연구에서는 상관관계 지수를 통해 클러스터링을 진행하는것 외에 

여러 재무재표 항목들이나 현금흐름표의 항목,변동성을 통해 클러스터링을 진행하고 

클러스터링을 진행할때마다 A부터E까지의 라벨링을 하여

클러스터들의 라벨을 더 직관적으로 이해할수있도록 진행하려고 한다.

이를 통해 투자자들이 투자를 진행하기전 기업의 성장성이나 재무상태에 대해 더 쉽게 알수있도록 하여

투자자 본인의 선호 투자성향을 파악하고,

수익률 상위 종목을 선별하여 포트폴리오 최적화를 진행한다.