본문 바로가기
Chapter 4-1. 기초 베이지안 통계 Chapter 4-1. 기초 베이지안 통계 베이지안 통계학은 딥 러닝의 여러 분야에서 사용된다. 대표적인 분야가 바로 생성 모델이다. 이번 챕터에서는 베이지안 통계학의 기본 개념과 간단한 예제를 통해 베이지안 통계학이 어떻게 동작하는지 살펴보자. Frequentist와 Bayesian 통계학을 배우는 목적은 여러 가지가 있는데, 그 중 하나는 확률분포를 결정하는 모수(unknown parameter)를 추정하는 것이다. 모수(unknown parameter)를 과학적으로 추정하려고 시도한 결과, 모수를 바라보는 여러 관점들이 나타났다. 그 중 두 가지가 바로 빈도론자(Frequentist)와 베이지안(Bayesian)이다. 대표적인 통계적 실험인 동전 던지기로 빈도론자와 베이지안의 차이를 이해해보자. 우.. 2023. 9. 21.
Chapter 4. 신경망과 딥러닝 Chapter 4. 신경망과 딥러닝 앞서 Chapter 3에서 머신 러닝이 무엇인지 살펴보았다. 이번 챕터에서는 딥 러닝의 정의가 무엇인지에서 시작하여 딥 러닝에 대해 심층적으로 알아보고자 한다. 딥 러닝이란 무엇인가? 딥 러닝은 머신 러닝에 포함된 하위 개념으로 머신 러닝이 알고리즘을 이용해서 데이터를 분석하고, 분석을 통해 학습하여 그것을 기반으로 하여 판단이나 예측을 하는 것인 반면 딥 러닝은 더 나아가 컴퓨터가 사람처럼 인식하고 학습할 수 있는 것을 말한다. 이러한 딥 러닝 알고리즘은 XAIOps의 장단기 부하예측에서 사용하고 있다. 딥 러닝이 무엇인가 알기 위해서는 인공 신경망을 먼저 알아야한다. 인공 신경망은 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신 러닝 모델이다. 뉴런의 구조.. 2023. 8. 31.
Chapter 3-8. 비지도 학습 Chapter 3-8. 비지도 학습 대부분의 흔히 알고있는 머신러닝 알고리즘은 지도 학습 기반의 알고리즘입니다. 이는 이전 챕터들에서도 소개되었지만, 데이터에 정답(레이블)이 알고 있는 상태로 학습을 하는 방식입니다. 본 챕터에서는 지도 학습과 상반되는 비지도 학습이 무엇이며, 왜 필요한지 그리고 어떤 문제에 적용하여 사용할 수 있는지에 대해 알아보겠습니다. 현실 세계에서 우리가 다룰수 있는 대부분의 데이터들은 정답(레이블)이 없는 데이터입니다. 그렇다면 어떻게 대부분의 지도 학습에 적용될 수 있었을까요? 이는 사람이 직접 데이터에서 라벨링 처리 과정을 수행했기 때문입니다. 이는 굉장히 비효율적이고 사람이 직접 수행하다보니 실수도 발생할 수 있고 또 많은 비용들이 발생하게 됩니다. 그렇기때문에 라벨링 처.. 2023. 7. 26.
Chapter 3-7. GAM 이론 및 실습 Chapter 3-7. GAM 이론 및 실습 일반적인 선형 회귀분석은 모형의 단순성으로 인해 해석과 추론이 쉽다는 장점이 있으나 예측력이라는 중요한 부분에서 한계를 가진다. 선형모형은 회귀 문제에서 독립변수와 예측변수가 선형적 관계가 있다고 가정한다. 이러한 가정이 맞는 경우도 있지만 부정확한 경우도 얼마든지 존재한다. 일반화 가법 모형(Generalized Additive Model)은 선형 가정을 완화시키는 가장 강력한 추론 방법이다. 일반화 가법 모형과 선형회귀 모형의 차이를 간단한 예제를 통해 설명하겠다. R MASS 패키지에 포함되어 있는 mcycle 데이터는 모터사이클 사고 모의실험을 통해 머리의 가속과 감속을 측정한 자료이다. 해당 데이터에서 times 필드는 충돌 후 시간(millsecon.. 2023. 6. 29.
Chapter 3-6. 차원 축소 Chapter 3-6. 차원 축소 머신러닝에 대해 공부하다 보면 차원의 저주 (Curse of Dimension) 라는 이야기를 종종 보게 될 것이다. 본 챕터에서는 "차원의 저주" 란 무엇인지 설명하고, 이 문제를 해결하기 위한 차원 축소 기법에 대해서 알아보도록 하자. 차원의 저주 (Curse of Dimension) 현실 세계에서 우리가 다루게 될 데이터는 굉장히 다양하고 많은 특성들을 가지고 있다. 예를 들어, "영화"라는 데이터를 예시로 설명하자면, "영화"라는 데이터를 나타내기 위한 특성으로는 영화의 제목, 개봉 시기, 장르, 감독, 배우, 예산, 시리즈 유무, 평점, 누적 관객 수, 수익 등 수 많은 특성들이 존재한다. 데이터 특성의 수가 많다라는 것은 머신러닝 학습 시 훈련 시간의 증가와 .. 2023. 5. 25.
Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) 서포트 벡터 머신은 선형/비선형 분류, 회귀, 이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 분류 문제에 많이 쓰이며, 중간 크기의 데이터셋에 적합한 모델이다. 지금부터 서포트 벡터 머신의 이론에 대해 알아보고 실습을 통해 분류 및 회귀에서 어떻게 사용하는지 알아보자. SVM의 아이디어와 자세한 수식 및 원리에 대해 분류 모델을 중심으로 먼저 알아보고, 회귀 모델의 원리에 대해 공부해보자. SVM의 기본 개념은 그림 1 와 같이 두 샘플 사이에 선을 그어, 그 선의 폭이 최대가 되도록 하여 두 샘플을 구분한다. 조금 더 자세히 설명하자면, 샘플이 특성을 정의하는 n 개의 변수들로 표현된다고 할 때, 샘플들.. 2023. 4. 27.
Chapter 3-4. 앙상블과 랜덤 포레스트 Chapter 3-4. 앙상블과 랜덤 포레스트 이전 회에서 다루었던 과적합 문제를 해결하는 방법 중, 앙상블이 머신러닝에서 많이 사용된다. 이번 회에서는 앙상블의 종류와 앙상블이 어떻게 모델 성능을 향상시키는지 알아보고 랜덤 포레스트에 대해 실습해 볼 것이다. 앙상블이란? 가장 좋은 모델 하나를 사용하는 것보다 여러 모델의 예측을 결합하면 더 좋은 예측 결과를 얻을 수 있다. 앙상블이란 여러 모델을 결합하여 만든 예측기를 뜻한다. 아래 예시로 앙상블을 이해해보자. 위 이미지의 5개 모델은 전부 70%의 정확도를 가진다. 5개 모델을 앙상블로 만들었을 때 성능이 얼마나 향상되는지 알아보자. 5개 모델이 예측 결과를 각각 만들었을 때 최종 결과는 5개 모델의 과반수를 따르는게 타당하다. 나올 수 있는 전체 .. 2023. 3. 30.
Chapter 3-3. 결정 트리 Chapter 3-3. 결정 트리 결정 트리는 트리 구조를 기반으로 데이터에서 규칙을 학습하여 분류(Classification) 문제와 회귀(Regression) 문제, 그리고 다중출력 문제까지도 해결할 수 있는 지도학습 계열의 머신러닝 알고리즘이다. 결정 트리 모델은 나무가 가지를 엮은 것과 같은 구조로 (마치 스무고개 처럼) 복잡한 데이터에서도 빠르게 동작하는 것이 큰 특징이며, 널리 알려진 머신러닝 알고리즘 중 하나인 랜덤 포레스트(Random Forest)의 기본 구성이 되는 모델이다. 결정 트리(Decision Tree) 결정 트리는 특정 기준(질문) 을 따라 데이터를 구분 짓는다. 결정 트리의 가장 첫 번째 기준은 트리에서 최초 깊이인 루트 노드(Root node) 에서 시작한다. Python.. 2023. 2. 22.
Chapter 3-2. 모델 훈련 Chapter 3-2. 모델 훈련 머신러닝 모델을 블랙박스로 취급하여도 모델을 훈련시키는 것은 가능하다. 하지만 훈련이 이루어지는 원리를 이해한다면 적절한 기법을 선택하여 훈련시간은 단축시키거나 모델의 성능을 높이는 것이 가능하다. 이번 장에서는 Chapter 3. 머신러닝에서 소개한 학습률, 비용 함수 등에 이어서 모델훈련에 필요한 몇 가지 개념을 다룬다. 경사 하강법 이전 장에서 언급한 것과 같이 비용 함수(Cost function)는 입력 데이터에 대한 오차를 계산하는 함수이다. 머신러닝에서는 오차를 줄이기 위해 다양한 최적화 알고리즘이 이용된다. 그 중에서 경사 하강법(Gradient Descent)은 가장 일반적인 최적화 알고리즘이다. 그림과 같이 비용 함수가 주어진 경우 경사 하강법은 파라미터.. 2023. 1. 19.