태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

엑기스 | 지능형 전력 빅데이터 예측, AutoML이 답!

기술이야기/엑.기.스 2020. 3. 13. 16:38






인공지능(AI)과 전력 빅데이터 분석


인공지능은 센스나 장비, 기기 등의 현 상태를 모니터링 하는 단순 영역부터 복잡하고 불확실한 미래상황을 추론하는 영역까지 다양한 영역에서 적용되고 있다. 가트너에서는 AI가 2021년까지 3천 3백조원의 비즈니스 가치와 7조 시간을 절약하는 업무 생산성 향상을 가져다 줄 것으로 예상하고 있다. 기계학습(머신러닝, Machine Learning)이나 심층학습(딥러닝, Deep Learning)은 모두 인간의 지능을 대체한다는 점에서 인공지능이라고 정의된다.


최근 데이터 과학과 데이터 사이언티스트의 부족으로 인해 자동 기계학습(Auto ML) 영역이 급속도로 커지고 있다. Auto Machine Learning이란, 데이터만 있다면 자동으로 분석 모델을 학습하고 갱신하여 최적의 분석 알고리즘을 추천, 업무에 적용하는 것이다. 분석 전문 지식이 없는 일반 사용자도 쉽게 머신 러닝 분석을 자동으로 생성하고 활용 가능하다. Auto ML 소프트웨어 툴의 수는 단 2년 만에 300%가 증가하였는데, 자동화된 데이터 과학 도구에 대한 다양한 정의, 기대 및 회의론과 모델 개발 및 배포에 대한 개선된 접근 방식 등의 변화로 이루어졌다.

전력 분야에서는 자원 및 시설의 효율적인 관리와 함께 문제 및 변칙의 적시 감지, 전력 수요 및 서비스에 대한 효과적인 예측을 위해 빅데이터와 AI 기술을 활용하고 있다. 다수 빅데이터 프로젝트가 진행되고 있으며, 플랫폼 및 인프라, 에너지 대용량 데이터 모니터링 및 분석, 스마트 시티, 스마트 홈 및 전기 자동차의 수요 예측, 새롭고 혁신적인 에너지 서비스 등의 분야를 포함한다.


데이터 분석 기법과 프로세스

데이터 분석의 80%가 머신러닝 기법을 이용하고 있다. 머신러닝은 비지도, 지도, 심층, 강화 학습 등으로 나뉘고, 최근 Gradient Boosting Tree와 Random Forest와 같은 머신러닝 앙상블 모델을 분석에 주로 활용한다. 현재 머신러닝 자동화 제품으로 가능한 분석 기법은 지도학습(Supervised Learning)이다. 예측하고자 하는 변수(목표변수, 결과)를 분석하기 위해서는 결과(정답)가 있는 과거 이력 데이터가 필요하기 때문이다. 일부 상용 머신러닝 플랫폼 중 머신러닝 자동화가 가능한 제품은 비지도학습 기법인 주성분 분석(Principal Component Analysis)과 K-Means 분석을 활용해 결과 예측력을 높이는 기능도 제공한다.


일반적인 데이터 분석 프로세스는 데이터 준비 – 데이터 저장 – 구조화 – 전처리 – 모델 평가 – 모델 학습 – 예측 데이터 수집 – 모델 배포 – 예측과 실제 결과 비교 – 모델 관리 모니터링 – 시각화 – 인사이트 발굴의 12단계이며, 대표적인 전통적 데이터 분석 프로세스는 아래 3가지가 있다.


그렇다면 전통적인 IT 프로젝트와 빅데이터 분석 프로젝트의 차이는 무엇일까? 전통적인 프로젝트는 기존 프로세스를 파악해 개선된 프로세스를 기반으로 시스템과 제품, 생산 등의 효율성과 비용절감을 강조하지만, 빅데이터 분석은 예측을 통해 가치를 창출하는데 초점을 맞춘다.




머신러닝 플랫폼의 종류와 평가 프레임워크



가트너에서 매년 발표하는 Magic Quadrant의 2020년 데이터 과학과 머신러닝 플랫폼 부문을 보자. 2020년으로 넘어가면서 전통적인 머신러닝 플랫폼인 SAS가 다시 리더 포지션으로 올라왔고, KNIME이 작년 리더 그룹에서 비저너리 그룹으로 내려온 점이 주목할 만 하다. 또한 Databricks, Dataiku, DataRobot 등이 새로운 포지션으로 이동했다. 

데이터 사이언티스트들은 오픈소스로 모델을 구현하는 경우가 많지만, 모델 구현 후 모델 배포 관점에서 상용 플랫폼을 선택하는 경우가 많다. 상용 플랫폼의 경우 모델 배포 및 모델 활용을 위해 Rest API 지원이 편리하고 용이하기 때문이다. 또한 다수의 상업 플랫폼이 이용 가능한 머신러닝 플랫폼이 R과 Python을 같이 쓸 수 있도록 지원하고 있다. 외산 Auto ML 제품군에서는 DataRobot과 H2O가 국내 지원을 하고 있다. 


Auto ML 평가를 위한 일관성 기준도 있다.

① 데이터 연결성 

② Summarization, Exploration & Cleansing을 포함한 데이터 처리의 기능 및 자동화

③ 데이터 변환 및 피쳐 선택을 포함한 피쳐 엔지니어링에서의 기능 및 자동화

④ 하이퍼 파라미터 튜닝, 문제 유형 및 앙상블을 포함한 학습 알고리즘의 기능 및 자동화

⑤ 데이터 및 모델 성능 시각화

⑥ 모델 성능 평가 역량

⑦ 제품 GUI, 코드 배포 및 포함을 비롯한 배포 옵션

⑧ 가격 책정


대표적 Auto ML인 데이터로봇의 기능과 특장점을 살펴보자. 

① 데이터 탐색 → 100+여개 기법 중 최적 모델 선택 → 최적의 하이퍼 파라미터 기준으로 모델 구현 → 분석 모델 배포 → 배포된 모델 관리

② 로지스틱 회귀, 랜덤 포레스트, 서포트 벡터머신, Lasso 회귀, 베이지안, 신경망 모델 등 100+여개의 분석 모델 중 최적 모델 선정

③ 사람이 아닌 기계를 통한 최적화로 모델 구현 공수 70% 감소 효과






Auto ML을 통한 전력사용량 예측


1분석 목표와 범위 : 전력 데이터를 활용한 고객 사용량 예측

공개된 임의의 과거 3년의 전력 사용량을 활용하여 전력사용량을 예측하는 분석 수행을 통해 예측 분석 모델링을 하고자 한다. 계약정보 및 사용량 패턴을 통해 고객별 일별 전력사용량을 예측하는 모델을 구축했다.


2. 분석 결과 및 활용 : 전력사용량 예측 모델 활용

분석한 모델을 웹서버에 배포하여 실시간으로 전략 사용량 예측 가능성을 타진하였고, 가상의 임의의 데이터를 평균값으로 입력 후 전략 사용량을 예측했다.



가상환경 환경 시뮬레이션을 통해 전력사용량을 재계산한 결과 전력 사용량이 174601.56kWh로 변경되었다.



3. AI기반 지능형 전력 빅데이터의 활용
향후 전력 사업 분야에서도 새로운 비즈니스와 가치 창출을 위해 Auto ML을 활용할 것으로 예상하며, AI 기반의 전력 분야에서 자원 및 시설의 효율적인 관리, 문제 및 변칙의 적시 감지, 전력 수요 및 서비스에 대한 효과적인 예측을 위해 빅데이터 및 AI 기술을 활용할 수 있는 지능형 빅데이터 분석 플랫폼이 필요할 것이다.









기고 | 빅데이터사업본부 조치선
편집 | 사업기획팀 박예영








월간 기술동향 | 가장 가까운 머신러닝, 추천 서비스

 

 

 

추천 시스템(Recommendation System)이란?

대상자가 좋아할 만한 무언가를 추천하는 시스템을 말합니다. 아마 대부분의 사람들은 최소한 한 번쯤 이미 추천시스템을 경험했을 것 같은데요, 쇼핑을 하기 위해 사이트를 방문하여 특정 상품의 정보를 얻기 위해 클릭을 하면, 화면 어딘가에 추천아이템, 인기아이템, 당신이 좋아할 만한 아이템 등 다양한 이름으로 상품을 추천하는 것을 쉽게 발견할 수 있습니다. 또한 시스템의 문제에 대한 해결 방법 추천과 건강에 대한 치료 방법 추천과 같은 다양한 범위에서 추천 시스템이 활용될 수 있습니다.


추천시스템은 아마도 우리가 가장 빈번하게 접하는 머신러닝 서비스라고 얘기해도 과언은 아닐 것 같은데요. 그만큼 추천시스템은 IT 서비스에서는 매우 중요한 핵심적인 기술이라고 할 수 있고, 전자상거래 관련 회사들은 추천시스템을 준비하거나 운영하고 있습니다.

 

 

 

추천 시스템의 주요 기술

 추천 시스템의 주요 기술은 2가지가 있고, 이 둘을 혼합하여 사용 가능합니다.

<그림1 | 사용자 기반 추천(좌)과 아이템 기반 추천(우)>


1. 아이템 기반 추천 : 사용자가 구매한 물건과 유사한 물건이나 연관성이 높은 물건을 추천하는 방식

2. 사용자 기반 추천 : 사용자를 유사한 사용자별로 그룹핑하고 해당 사용자 그룹내의 사용자가 구매한 물품을 그룹의 다른 사용자에게 추천하는 방식

3. 혼합형 추천 : 사용자를 그룹핑하고, 해당 그룹의 사용자가 구매한 물품들을 아이템 기반으로 연관성을 분석하여 연관성이 높은 물품을 해당 사용자 그룹에 추천하는 방식


주요 기술의 장점 및 단점은 아래 표와 같으며, 

대표적인 추천 알고리즘으로 Collaboration Filtering(CF, 협업 필터링)을 적용하고 있습니다.


<표1 | 추천 서비스 주요 기술의 장단점>



 그리고 최근에는 딥러닝 기술과 결합된 추천 방법을 개발하고 있거나 연구하고 있습니다.

 

 

 


성능평가

Collaboration Filtering을 이용해 추천시스템을 개발했다면 해당 시스템의 성능을 평가해야 합니다. 

성능평가는 주로 A/B 테스트를 적용합니다.

      ※ A/B테스트: 기존의 제품 또는 알고리즘과 신규로 적용한 알고리즘을 비교 평가하는 방식


 

 

추천 시스템의 활용 사례

 마지막으로 추천 시스템(Recommendation System)의 활용 사례를 보시죠. 사례를 보면 더 이해하기 쉬울 것 같습니다.


1. YouTube

유튜브는 비디오 메타데이터(장르, 태그정보, 상영시간 등), 사용자 접속정보(로그인, 미로그인), 사용자 정보(로그인), 비디오 클릭 수, 비디오 플레이타임 정보 등의 정보들을 이용해 추천시스템을 운영하고 있습니다. 

또한, 로그인 상태에 따라 다른 추천 방식을 적용하는데요. 미로그인 시(기본)에는 아이템기반으로 Collaborative Filtering 모델을 적용하여 추천하고, 로그인 후에는 사용자기반으로 Deep Collaborative Filtering 모델을 적용 중입니다.


2. 아마존

아마존은 평점(Rating),구매행위(Buying Behavior) 그리고 검색행위(Browsing Behavior) 정보들을 이용해 추천시스템을 운영하고 있습니다. 또한 자체적으로 기존 데이터를 기준으로 추천하는 Item-to-Item Collaborative Filtering 알고리즘을 개발하였죠.


<그림2 | 아마존이 특허 출원 시 제출한 추천 시스템 요약도>



이 외에도 넷플릭스, 페이스북 등 다양한 기업에서 추천시스템을 활용하고 있습니다.





Reference

https://www.oss.kr/info_techtip/show/5419f4f9-12a1-4866-a713-6c07fd36e647 

https://medium.com/@cfpinela/recommender-systems-user-based-and-item-based-collaborative-filtering-5d5f375a127f 








기획 및 글 | 사업기획팀 박예영

기술 협조 | 사업기획팀 윤효근 박사