머신러닝을 공부하기 위한 첫 번째 교재로, 연구실의 교수님께서 'An Introduction to Statistical Learning'을 추천해주셨다. Garath James를 비롯한 다양한 저자가 집필한 저서인데, 배우는 입장에서 정말 유용하게도 전문 PDF가 홈페이지에 올라와있다. 본 블로그는 필자가 공부하며 배운 것들을 최대한 나만의 언어로 이해하기 쉽게 정리해두는 공간이다. 본 블로그의 글을 읽고 흥미가 생겼다면 다음의 링크를 참조해 교재 전문을 확인해보는 것도 좋을 것이다.
An Introduction to Statistical Learning
As the scale and scope of data collection continue to increase across virtually all fields, statistical learning has become a critical toolkit for anyone who wishes to understand data. An Introduction to Statistical Learning provides a broad and less techn
www.statlearning.com
본 카테고리에서는 머신러닝의 여러 기법 중 하나인 통계적 학습(Statistical Learning)에 대해 다룰 것이다. 앞으로 쓸 글의 대부분은 위에 첨부한 교재의 내용을 참조하였다. 머신러닝에 주로 사용되는 언어인 R과 Python, 두 언어로 실습환경이 나뉘어져 있는데, 필자가 파이썬이 좀 더 익숙한 관계로... 나는 파이썬으로 실습을 진행했다. 그래서 아마 포스팅도 파이썬 위주로 진행될 것 같다.
머신 러닝(Machine Learning), 기계학습은 쉽게 말해 기계를 학습시키는 것이다. 이 글을 쓰고 있는 지금은 아직 기계학습에 대한 공부가 선행되지 않아 정확한 정의는 아니다. 기계학습에서 중요한 세 영역을 생각해보자면, (1) 기계에게 무엇을 배우게 시킬 것인가? (Input) (2) 어떻게 배우게 할 것인가? (Model) (3) 어떤 결과를 낼 것인가? (Output) 의 세 가지로 구분해볼 수 있다.
Input은 데이터의 형태로 들어온다. 세상의 폭넓은 정보를 어떻게 기계가 이해할 수 있는 데이터로 만드는가? 가 중요한 지점이 된다.
크게 세 가지 데이터의 종류를 생각해볼 수 있다.
1) 연속적이고 양적인 Data : 임금 데이터를 생각해볼 수 있다. 이런 경우 선형, 혹은 비선형 그래프로 데이터를 표현할 수 있으며, 회귀분석(Regression)의 대상이 된다.
2) 불연속적이고 질적인 Data : 주식 시장 데이터를 생각해볼 수 있다. 주식은 오르거나, 내리거나, 둘 중 하나의 이산적 값을 가진다. 이 경우 분류(Categori)를 잘 설정하는 것이 중요하다.
3) 그 외 : Gene Expression data를 생각해볼 수 있다. 유전자 발현량은 이산적 값도 아니고, 연속적인 값도 아니다. 그저 비슷한 요소들끼리 모아둘 수 있을 뿐이다. 이를 Clustering이라 하고, 이 또한 기계학습의 대상 중 하나가 된다.
어떻게 배우게 할 것인지에 따라 다양한 모델이 존재한다. 본 카테고리에서는 Statistical Learning 기법에 대해서만 주로 다룰 것 같다. 워낙 발전이 빠른 분야라 어떤 모델들이 있는지 전부 알 필요는 없고, 크게는 Input과 Output의 유무에 따라 두 가지로 생각해볼 수 있다.
1) Supervised : 지도학습 모델 - 이미 있는 output에 대해 학습한다. 추론한 결과가 얼마나 실제 결과와 유사한지를 판단한다고 생각하면 된다.
2) Unsupervised : 비지도학습 모델 - 비교할 output이 없다. 정답이 없는 문제를 푼다고 생각하면 좋다.
'기계학습 > 통계적 학습' 카테고리의 다른 글
[통계적 학습] 단순 선형 회귀 (Simple Linear Regression) (0) | 2025.07.16 |
---|---|
[통계적 학습] Ch.2 연습문제 풀이 (2) | 2025.07.14 |
[통계적 학습] 모델 정확도 (Model Accuracy) (0) | 2025.07.11 |
[통계적 학습] 통계적 학습이란 무엇인가? (What is Statistical Learning?) (0) | 2025.07.10 |