본문 바로가기
기계학습/통계적 학습

[통계적 학습] 개요 (Overview)

by 연어맛젤리 2025. 7. 8.
반응형

머신러닝을 공부하기 위한 첫 번째 교재로, 연구실의 교수님께서 'An Introduction to Statistical Learning'을 추천해주셨다. Garath James를 비롯한 다양한 저자가 집필한 저서인데, 배우는 입장에서 정말 유용하게도 전문 PDF가 홈페이지에 올라와있다. 본 블로그는 필자가 공부하며 배운 것들을 최대한 나만의 언어로 이해하기 쉽게 정리해두는 공간이다. 본 블로그의 글을 읽고 흥미가 생겼다면 다음의 링크를 참조해 교재 전문을 확인해보는 것도 좋을 것이다.

 

https://www.statlearning.com/

 

An Introduction to Statistical Learning

As the scale and scope of data collection continue to increase across virtually all fields, statistical learning has become a critical toolkit for anyone who wishes to understand data. An Introduction to Statistical Learning provides a broad and less techn

www.statlearning.com

 

본 카테고리에서는 머신러닝의 여러 기법 중 하나인 통계적 학습(Statistical Learning)에 대해 다룰 것이다. 앞으로 쓸 글의 대부분은 위에 첨부한 교재의 내용을 참조하였다. 머신러닝에 주로 사용되는 언어인 R과 Python, 두 언어로 실습환경이 나뉘어져 있는데, 필자가 파이썬이 좀 더 익숙한 관계로... 나는 파이썬으로 실습을 진행했다. 그래서 아마 포스팅도 파이썬 위주로 진행될 것 같다.


머신 러닝(Machine Learning), 기계학습은 쉽게 말해 기계를 학습시키는 것이다. 이 글을 쓰고 있는 지금은 아직 기계학습에 대한 공부가 선행되지 않아 정확한 정의는 아니다. 기계학습에서 중요한 세 영역을 생각해보자면, (1) 기계에게 무엇을 배우게 시킬 것인가? (Input) (2) 어떻게 배우게 할 것인가? (Model) (3) 어떤 결과를 낼 것인가? (Output) 의 세 가지로 구분해볼 수 있다.

 

Input은 데이터의 형태로 들어온다. 세상의 폭넓은 정보를 어떻게 기계가 이해할 수 있는 데이터로 만드는가? 가 중요한 지점이 된다.

 

크게 세 가지 데이터의 종류를 생각해볼 수 있다.

 

1) 연속적이고 양적인 Data : 임금 데이터를 생각해볼 수 있다. 이런 경우 선형, 혹은 비선형 그래프로 데이터를 표현할 수 있으며, 회귀분석(Regression)의 대상이 된다.

2) 불연속적이고 질적인 Data : 주식 시장 데이터를 생각해볼 수 있다. 주식은 오르거나, 내리거나, 둘 중 하나의 이산적 값을 가진다. 이 경우 분류(Categori)를 잘 설정하는 것이 중요하다.

3) 그 외 : Gene Expression data를 생각해볼 수 있다. 유전자 발현량은 이산적 값도 아니고, 연속적인 값도 아니다. 그저 비슷한 요소들끼리 모아둘 수 있을 뿐이다. 이를 Clustering이라 하고, 이 또한 기계학습의 대상 중 하나가 된다.


어떻게 배우게 할 것인지에 따라 다양한 모델이 존재한다. 본 카테고리에서는 Statistical Learning 기법에 대해서만 주로 다룰 것 같다. 워낙 발전이 빠른 분야라 어떤 모델들이 있는지 전부 알 필요는 없고, 크게는 Input과 Output의 유무에 따라 두 가지로 생각해볼 수 있다.

 

1) Supervised : 지도학습 모델 - 이미 있는 output에 대해 학습한다. 추론한 결과가 얼마나 실제 결과와 유사한지를 판단한다고 생각하면 된다.

2) Unsupervised : 비지도학습 모델 - 비교할 output이 없다. 정답이 없는 문제를 푼다고 생각하면 좋다.

반응형