본문 바로가기
Chapter 3-6. 차원 축소 Chapter 3-6. 차원 축소 머신러닝에 대해 공부하다 보면 차원의 저주 (Curse of Dimension) 라는 이야기를 종종 보게 될 것이다. 본 챕터에서는 "차원의 저주" 란 무엇인지 설명하고, 이 문제를 해결하기 위한 차원 축소 기법에 대해서 알아보도록 하자. 차원의 저주 (Curse of Dimension) 현실 세계에서 우리가 다루게 될 데이터는 굉장히 다양하고 많은 특성들을 가지고 있다. 예를 들어, "영화"라는 데이터를 예시로 설명하자면, "영화"라는 데이터를 나타내기 위한 특성으로는 영화의 제목, 개봉 시기, 장르, 감독, 배우, 예산, 시리즈 유무, 평점, 누적 관객 수, 수익 등 수 많은 특성들이 존재한다. 데이터 특성의 수가 많다라는 것은 머신러닝 학습 시 훈련 시간의 증가와 .. 2023. 5. 25.
Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) Chapter 3-5. 서포트 벡터 머신 (Support Vector Machine) 서포트 벡터 머신은 선형/비선형 분류, 회귀, 이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 분류 문제에 많이 쓰이며, 중간 크기의 데이터셋에 적합한 모델이다. 지금부터 서포트 벡터 머신의 이론에 대해 알아보고 실습을 통해 분류 및 회귀에서 어떻게 사용하는지 알아보자. SVM의 아이디어와 자세한 수식 및 원리에 대해 분류 모델을 중심으로 먼저 알아보고, 회귀 모델의 원리에 대해 공부해보자. SVM의 기본 개념은 그림 1 와 같이 두 샘플 사이에 선을 그어, 그 선의 폭이 최대가 되도록 하여 두 샘플을 구분한다. 조금 더 자세히 설명하자면, 샘플이 특성을 정의하는 n 개의 변수들로 표현된다고 할 때, 샘플들.. 2023. 4. 27.
Chapter 3-4. 앙상블과 랜덤 포레스트 Chapter 3-4. 앙상블과 랜덤 포레스트 이전 회에서 다루었던 과적합 문제를 해결하는 방법 중, 앙상블이 머신러닝에서 많이 사용된다. 이번 회에서는 앙상블의 종류와 앙상블이 어떻게 모델 성능을 향상시키는지 알아보고 랜덤 포레스트에 대해 실습해 볼 것이다. 앙상블이란? 가장 좋은 모델 하나를 사용하는 것보다 여러 모델의 예측을 결합하면 더 좋은 예측 결과를 얻을 수 있다. 앙상블이란 여러 모델을 결합하여 만든 예측기를 뜻한다. 아래 예시로 앙상블을 이해해보자. 위 이미지의 5개 모델은 전부 70%의 정확도를 가진다. 5개 모델을 앙상블로 만들었을 때 성능이 얼마나 향상되는지 알아보자. 5개 모델이 예측 결과를 각각 만들었을 때 최종 결과는 5개 모델의 과반수를 따르는게 타당하다. 나올 수 있는 전체 .. 2023. 3. 30.
창의력, 사실 AI가 잘하는 일 챗GPT가 등장하자 알파고 이후 전 세계에서 다시 인공지능을 주목하고 있습니다. 현재의 인공지능은 2016년 알파고 등장과는 또 다른 위압감으로 다가옵니다. 챗GTP가 주는 충격은, 바둑에 한정하지 않고 Anyone, Anytime, Anywhere이기 때문입니다. 챗GPT는 누구나 어디에든 활용할 수 있는 대화형 인공지능 서비스입니다. ‘이거 알 방법 없나?’ 싶을 때 요즘은 너도나도 챗GPT에 물어보라고 합니다. 한마디로 흥미롭고 무섭다고 해야 할까요? 스테이플러의 역사, 중학생 회장선거 연설문, 크로아티아에서 이탈리아로 가는 페리 정보부터 시작해, 홈페이지에 들어갈 광고 배너 문구, MS Bing에서 기업 주소를 변경하는 방법까지 10초 안에 요구에 거의 근접한 정보를 줍니다. 『챗GPT-4 인공지.. 2023. 3. 30.
Chapter 3-3. 결정 트리 Chapter 3-3. 결정 트리 결정 트리는 트리 구조를 기반으로 데이터에서 규칙을 학습하여 분류(Classification) 문제와 회귀(Regression) 문제, 그리고 다중출력 문제까지도 해결할 수 있는 지도학습 계열의 머신러닝 알고리즘이다. 결정 트리 모델은 나무가 가지를 엮은 것과 같은 구조로 (마치 스무고개 처럼) 복잡한 데이터에서도 빠르게 동작하는 것이 큰 특징이며, 널리 알려진 머신러닝 알고리즘 중 하나인 랜덤 포레스트(Random Forest)의 기본 구성이 되는 모델이다. 결정 트리(Decision Tree) 결정 트리는 특정 기준(질문) 을 따라 데이터를 구분 짓는다. 결정 트리의 가장 첫 번째 기준은 트리에서 최초 깊이인 루트 노드(Root node) 에서 시작한다. Python.. 2023. 2. 22.
Chapter 3-2. 모델 훈련 Chapter 3-2. 모델 훈련 머신러닝 모델을 블랙박스로 취급하여도 모델을 훈련시키는 것은 가능하다. 하지만 훈련이 이루어지는 원리를 이해한다면 적절한 기법을 선택하여 훈련시간은 단축시키거나 모델의 성능을 높이는 것이 가능하다. 이번 장에서는 Chapter 3. 머신러닝에서 소개한 학습률, 비용 함수 등에 이어서 모델훈련에 필요한 몇 가지 개념을 다룬다. 경사 하강법 이전 장에서 언급한 것과 같이 비용 함수(Cost function)는 입력 데이터에 대한 오차를 계산하는 함수이다. 머신러닝에서는 오차를 줄이기 위해 다양한 최적화 알고리즘이 이용된다. 그 중에서 경사 하강법(Gradient Descent)은 가장 일반적인 최적화 알고리즘이다. 그림과 같이 비용 함수가 주어진 경우 경사 하강법은 파라미터.. 2023. 1. 19.
PHILINNOVATOR | 2차 인지혁명, 인간을 넘어선 기계 #1 나 그리고 당신을 위한 ‘초연결 시대의 현자 되기’ 프로젝트! 21세기 혼란스러운 초연결 사회에서 중심을 잡고 지혜롭게 살아가기 위한 내용들을 담아 돌아온 ‘필리노베이터’입니다. 지난달 ‘뇌의 진화와 1차 인지혁명’에 이어, 이번달에는 ‘2차 인지혁명, 인간을 넘어선 기계’라는 주제로 한번 이야기를 해 볼까 합니다. 이번 글에서 다루고자 하는 영역은 인공지능(Artificial Intelligence, AI)으로 다음과 같은 의문에서 시작하겠습니다. 지능은 생명체의 전유물인가? 인공지능은 인간의 뇌를 따라잡을 수 있을까? 안드로이드는 전기양을 꿈꾸는가? ‘인간을 넘어선 기계’라는 주제를 놓고 생각하다 보니 머릿속에 떠오르는 소설이 하나 있습니다. 바로 필립 K 딕(Philip Kindred Dick, 1.. 2022. 4. 27.
월간기술동향 | 2022 ICT 10대 이슈 내년 2022년에는 메타버스, ESG 등을 중심으로 한 주요 ICT 분야가 핵심이 될 전망입니다. 지난 4일 '디지털 대전환, 혁신을 통한 미래!'라는 주제로 개최된 2022 ICT 산업전망컨퍼런스의 일부 내용을 정리해봤습니다. 2022 ICT 10대 이슈 정보통신기획평가원(IITP)의 문형돈 단장은 메타버스, 디지털 우주, 탈중앙 클라우드, 로보 사피엔스, 디지털로 해결하는 ESG, 혁신과 상생의 플랫폼 등 2022년 ICT 10대 이슈를 발표했습니다. 올해 데이터 경제, 온택트 등이 키워드였다면, 내년 화두로는 메타버스와 ESG 등이 새롭게 제시된 건데요. 올해는 코로나에 대한 대응의 이슈였다면, 내년은 위드 코로나 시대를 맞아 우리가 무엇을 준비해야 하는지에 대한 이슈로 구성된 겁니다. 또한, 다가.. 2021. 11. 24.
엑셈 인사이트 | 2021년 APM의 현주소와 InterMax 2021년 APM 현주소를 보다 APM(Application Performance Monitoring)은 기업의 비즈니스가 디지털로 이동하고 컴퓨팅 환경이 복잡해지면서 주목을 받아 왔다. APM은 등장한 지 20여 년이 지난 오래된 개념이지만 여전히 웹 애플리케이션 성능 모니터링과 관리, 사용자 모니터링 수단으로 가치를 인정받고 있다. 최근 APM은 클라우드 네이티브를 지향하는 엔터프라이즈 컴퓨팅 환경의 변화 속에서 가치와 역할이 변화되고 있다. 컴퓨팅과 기술 트렌드가 빠르게 바뀌는 현재 전 세계 APM은 어떻게 변화하고 있을까? Full Stack 모니터링에 더해 분석이 연계된 통합 플랫폼 국내에서는 APM을 WAS APM과 EUM(End-User Monitoring) APM으로 단순히 구분한다. 이러.. 2021. 6. 23.