본문 바로가기
Chapter 3-6. 차원 축소 Chapter 3-6. 차원 축소 머신러닝에 대해 공부하다 보면 차원의 저주 (Curse of Dimension) 라는 이야기를 종종 보게 될 것이다. 본 챕터에서는 "차원의 저주" 란 무엇인지 설명하고, 이 문제를 해결하기 위한 차원 축소 기법에 대해서 알아보도록 하자. 차원의 저주 (Curse of Dimension) 현실 세계에서 우리가 다루게 될 데이터는 굉장히 다양하고 많은 특성들을 가지고 있다. 예를 들어, "영화"라는 데이터를 예시로 설명하자면, "영화"라는 데이터를 나타내기 위한 특성으로는 영화의 제목, 개봉 시기, 장르, 감독, 배우, 예산, 시리즈 유무, 평점, 누적 관객 수, 수익 등 수 많은 특성들이 존재한다. 데이터 특성의 수가 많다라는 것은 머신러닝 학습 시 훈련 시간의 증가와 .. 2023. 5. 25.
Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) 서포트 벡터 머신은 선형/비선형 분류, 회귀, 이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 분류 문제에 많이 쓰이며, 중간 크기의 데이터셋에 적합한 모델이다. 지금부터 서포트 벡터 머신의 이론에 대해 알아보고 실습을 통해 분류 및 회귀에서 어떻게 사용하는지 알아보자. SVM의 아이디어와 자세한 수식 및 원리에 대해 분류 모델을 중심으로 먼저 알아보고, 회귀 모델의 원리에 대해 공부해보자. SVM의 기본 개념은 그림 1 와 같이 두 샘플 사이에 선을 그어, 그 선의 폭이 최대가 되도록 하여 두 샘플을 구분한다. 조금 더 자세히 설명하자면, 샘플이 특성을 정의하는 n 개의 변수들로 표현된다고 할 때, 샘플들.. 2023. 4. 27.
Chapter 3-3. 결정 트리 Chapter 3-3. 결정 트리 결정 트리는 트리 구조를 기반으로 데이터에서 규칙을 학습하여 분류(Classification) 문제와 회귀(Regression) 문제, 그리고 다중출력 문제까지도 해결할 수 있는 지도학습 계열의 머신러닝 알고리즘이다. 결정 트리 모델은 나무가 가지를 엮은 것과 같은 구조로 (마치 스무고개 처럼) 복잡한 데이터에서도 빠르게 동작하는 것이 큰 특징이며, 널리 알려진 머신러닝 알고리즘 중 하나인 랜덤 포레스트(Random Forest)의 기본 구성이 되는 모델이다. 결정 트리(Decision Tree) 결정 트리는 특정 기준(질문) 을 따라 데이터를 구분 짓는다. 결정 트리의 가장 첫 번째 기준은 트리에서 최초 깊이인 루트 노드(Root node) 에서 시작한다. Python.. 2023. 2. 22.
Chapter 3. 머신러닝 Chapter 3. 머신러닝 머신러닝의 정의와 활용 머신러닝이란 무엇인가? 머신러닝(Machine Learning)은 인공지능(Artificial Intelligence)의 한 부분으로, 입력된 데이터로부터 컴퓨터가 학습하도록 프로그래밍하는 것을 말한다. 이 챕터에서는 머신러닝을 분류하는 두 가지의 방법에 대해 알아볼 것이다. * 머신러닝을 분류하는 첫 번째 방법: 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 지도 학습(Supervised Learning)은 훈련 데이터에 레이블(정답)이 있는 학습 방법이며, 대표적으로 K-nearest neighbors(K-최근접 이웃), Linear regression(선형 회귀), Logistic regression(로지스틱 회귀), Support vecto.. 2022. 11. 23.
Chapter 2. Numpy 2편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 1편에서는 array의 생성 방법과 타입 확인, 텐서 차원 등을 실습해 보았다면, 2편에서는 array를 직접 적용하여 실습해 보고자 한다. 2-4. numpy 인덱싱, 슬라이싱, 전치행렬 2-4-1. 인덱싱 인덱싱은 Python 리스트와 동일한 개념으로 사용되고, ‘,’(쉼표)를 통해 각 차원의 인덱스에 접근이 가능하다. 그리고 Ndarray에서 원하는 좌표 또는 특정 데이터만을 선택하는데 유용하게 사용된다. 이때 인덱싱을 할 때 0번부터 인덱스가 시작하는 것을 주의하고, 원하는 축을 지정하려면 axis를 통해 선택할 수 있다. 인덱싱 종류로는 '특정 데이터만 추출', '슬라이싱', '팬시 인덱싱', '불리언 인덱싱' 등이 있다. 인덱싱 및 슬라이싱 '특정 데이터만 추출'은 말 그대로 원하는 위치의 인.. 2022. 7. 27.
Chapter 2. Numpy 1편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 Time Series 머신러닝을 위한 Python 필수 라이브러리, Numpy 1편 머신러닝 알고리즘을 공부하기 앞서, 시계열 데이터를 다루기 위해서 Python 언어의 라이브러리 사용법에 익숙해져야 할 필요가 있다. 이번 챕터에서는 라이브러리를 중점적으로 살펴보며, 여러 실습 예제를 다뤄볼 것이다. Numpy와 Pandas는 큰 규모의 데이터를 탄력적으로 작업할 수 있도록 많은 고성능 도구들을 제공한다. Numpy와 Pandas가 무엇인지 살펴보고, 그 핵심 기능들에 대해 알아보자. 실습을 위한 환경으로는 크게 Jupyter notebook을 직접 구축하여 로컬에서 사용하는 방법과 Google Colab을 사용하는 방법이 있다. 빠른 실습 환경 구축을 위해 Colab을 활용하기를 권장한다. * Nump.. 2022. 7. 27.
Chapter 1. 기초 선형대수 및 통계학 : Time Series 머신러닝을 위한 Python 필수 라이브러리 Time Series 머신러닝을 위한 기초 선형대수 및 통계학 머신러닝과 딥러닝 공부를 시작하고 싶은 분들을 위해, 여러 분야 중 시계열 데이터를 활용한 데이터 처리 및 머신러닝, 딥러닝 알고리즘을 소개하고자 한다. 이는 엑셈의 AI 기반 IT 운영 지능화 솔루션인 XAIOps의 알고리즘 모델들에 대해 이해할 수 있는 첫 걸음이기도 하다. 학습이 모두 끝난 후에는 머신러닝과 딥러닝이 무엇이며, XAIOps의 알고리즘들이 어떤 방식으로 모델링 되는지에 대한 기초적 이해에 도움이 될 것이다. 이에 앞서 데이터 처리 및 AI 알고리즘을 이해하기 위해 사전 지식으로 요구되는 기초 선형대수 및 통계학에 대해 알아보자. 우리는 왜 행렬을 공부해야 할까? 많은 양의 데이터(행렬) 구조를 변환할 때, 알고리즘(모델)의.. 2022. 6. 27.
엑기스 | 지능형 전력 빅데이터 예측, AutoML이 답! 인공지능(AI)과 전력 빅데이터 분석 인공지능은 센스나 장비, 기기 등의 현 상태를 모니터링 하는 단순 영역부터 복잡하고 불확실한 미래상황을 추론하는 영역까지 다양한 영역에서 적용되고 있다. 가트너에서는 AI가 2021년까지 3천 3백조원의 비즈니스 가치와 7조 시간을 절약하는 업무 생산성 향상을 가져다 줄 것으로 예상하고 있다. 기계학습(머신러닝, Machine Learning)이나 심층학습(딥러닝, Deep Learning)은 모두 인간의 지능을 대체한다는 점에서 인공지능이라고 정의된다. 최근 데이터 과학과 데이터 사이언티스트의 부족으로 인해 자동 기계학습(Auto ML) 영역이 급속도로 커지고 있다. Auto Machine Learning이란, 데이터만 있다면 자동으로 분석 모델을 학습하고 갱신하여.. 2020. 3. 13.
월간 기술동향 | 가장 가까운 머신러닝, 추천 서비스 추천 시스템(Recommendation System)이란?대상자가 좋아할 만한 무언가를 추천하는 시스템을 말합니다. 아마 대부분의 사람들은 최소한 한 번쯤 이미 추천시스템을 경험했을 것 같은데요, 쇼핑을 하기 위해 사이트를 방문하여 특정 상품의 정보를 얻기 위해 클릭을 하면, 화면 어딘가에 추천아이템, 인기아이템, 당신이 좋아할 만한 아이템 등 다양한 이름으로 상품을 추천하는 것을 쉽게 발견할 수 있습니다. 또한 시스템의 문제에 대한 해결 방법 추천과 건강에 대한 치료 방법 추천과 같은 다양한 범위에서 추천 시스템이 활용될 수 있습니다. 추천시스템은 아마도 우리가 가장 빈번하게 접하는 머신러닝 서비스라고 얘기해도 과언은 아닐 것 같은데요. 그만큼 추천시스템은 IT 서비스에서는 매우 중요한 핵심적인 기술이.. 2018. 9. 5.