태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

월간기술동향 | AI와 대화를? 소오-름


아이언맨의 인공지능 비서 ‘자비스’를 아시나요? 아이언맨이 자비스에게 지시를 하면, 자비스는 그의 말을 정확히 인지하고 지시를 수행합니다. 자비스가 실제로 나의 비서가 된다면 얼마나 좋을까요? 현실에서도 자비스와 같은 인공지능 비서를 사용하게 될 날이 멀지 않은 것 같습니다. 

지난 5월, 구글 I/O 컨퍼런스에서는 놀라운 시연이 펼쳐졌습니다. 인공지능 비서 구글 어시스턴트가 직접 미용실에 전화해 직원과 대화하여 예약을 해주고 쉬는 날을 확인하는 시연을 보였습니다. 아마 아래 영상을 보시면 깜짝 놀라실 겁니다.


<영상 출처: YouTube, Jeffrey Grubb>


첫 번째 시연 중 미용실 직원의 기다려 달라는 말에 사람처럼 ‘으-흠’하고 반응하는 인공지능의 모습. 정말 놀랍지 않나요? 이 놀라운 광경은 구글 어시스턴트가 실제로 대화의 뉘앙스를 이해한다는 것이며, 이 기술을 “구글 듀플렉스”라 부른다고 구글 순다 피차이 CEO가 말했습니다. 


그래서 이번 시간에는 구글 듀플렉스와 그 중심 기술에 대해 알아보도록 하겠습니다.


Google Duplex

구글 듀플렉스는 기존 대화형 AI보다 더 진화된 모습을 보여줍니다. 사람을 대하는 것처럼 자연스러운 대화 경험을 제공하며, 대화가 예상대로 흘러가지 않을 때도 지능적으로 반응할 수 있습니다. 음성도 아주 자연스럽고요.

듀플렉스의 중심에는 TFX(TensorFlow Extended)를 사용하여 설계된 순환 신경망(RNN, Recurrent Neural Network)가 있습니다. 높은 정밀도를 얻기 위해 구글에서는 익명 처리된 수십만 건의 온라인 예약 음성 녹음 데이터를 반복 학습시켰다고 합니다. 

<출처: Google AI Blog, Google Duplex: An AI System for Accomplishing Real-World Tasks Over the Phone>


RNN이란?

그렇다면, 위에서 언급한 순환 신경망(RNN, Recurrent Neural Network)에 대해 간단하게 알아봅시다. 음악, 동영상, 에세이, 시... 이것들의 공통점은 무엇일까요? 바로 시퀀스라는 점입니다. 음악은 음계들의 시퀀스, 동영상은 이미지의 시퀀스, 에세이는 단어들의 시퀀스로 볼 수 있습니다. 시퀀스의 길이는 가변적입니다. 소설에는 단편소설도 있고 장편소설도 있는 것과 같죠. 

RNN은 시퀀스 데이터를 모델링 하기 위해 등장했습니다. RNN이 기존의 뉴럴 네트워크와 다른 점은 ‘기억’을 갖고 있다는 점입니다. 네트워크의 기억은 지금까지의 입력 데이터를 요약한 정보라고 볼 수 있습니다. 새로운 입력이 들어올 때마다 네트워크는 자신의 기억을 조금씩 수정합니다. 결국 입력을 모두 처리하고 난 후 네트워크에게 남겨진 기억은 시퀀스 전체를 요약하는 정보가 됩니다. 이는 사람이 시퀀스를 처리하는 방식과 비슷합니다. 이 글을 읽을 때도 우리는 이전까지의 단어에 대한 기억을 바탕으로 새로운 단어를 이해합니다. 이 과정은 새로운 단어마다 계속해서 반복되기 때문에 RNN에는 Recurrent, 즉 순환적이라는 이름이 붙습니다. RNN은 이런 반복을 통해 아무리 긴 시퀀스라도 처리할 수 있는 것입니다.

<출처: Dreamgonfly’s github, RNN 다이어그램 >


위 다이어그램에서 빨간색 사각형은 입력, 노란색 사각형은 기억, 파란색 사각형은 출력을 나타냅니다. 첫번째 입력이 들어오면 첫번째 기억이 만들어집니다. 두번째 입력이 들어오면 기존의 기억과 새로운 입력을 참고하여 새 기억을 만듭니다. 입력의 길이만큼 이 과정을 얼마든지 반복할 수 있습니다. 각각의 기억은 그때까지의 입력을 요약해서 갖고 있는 정보입니다. RNN은 이 요약된 정보를 바탕으로 출력을 만들어 냅니다.


RNN의 활용
이젠 RNN을 활용한 쉬운 예들을 보여 드릴게요. 한번에 이해하실 수 있을 것 같습니다.

1.연관 검색어
우리가 단어를 입력하면 다음 단어를 예상해서 연관 검색어를 알려주죠.

<구글에서 엑셈을 검색하면..?>


2.자동 번역
구글 번역기와 네이버 파파고는 RNN을 응용한 모델로 만들어 졌다는 사실! 



이번 시간에 구글 듀플렉스를 통해 구글의 자연어 처리 기술이 얼마나 향상되었는지 알 수 있었고, RNN에 대해서도 간단하게 알아보았습니다. 구글은 스타벅스ㆍ도미노피자ㆍ파네라브레드 등과 파트너십 계약을 맺고 듀플렉스를 통한 주문 기능을 활용할 예정이라고 하며, 올해 안에 인공지능 비서 서비스 ‘구글 어시스턴트’에 듀플렉스가 추가될 것이라고 밝혔습니다.
인공지능 기술의 가능성과 잠재력에 대해 더욱 기대가 되는데요, 다음 시간에도 흥미로운 내용으로 찾아 뵙도록 하겠습니다.

Reference
https://youtu.be/D5VN56jQMWM 
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html 
https://dreamgonfly.github.io/rnn/2017/09/04/understanding-rnn.html
http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/ 



기획 및 글 | 사업기획팀 박예영


엑기스 | 새로운 시도, Auto ML

기술이야기/엑.기.스 2018.10.01 14:32


인공지능(Artificial intelligence, AI)의 역할 

 오늘날 인공지능(Artificial intelligence, AI)이라는 용어가 학술적, 기술적 측면을 넘어서 이제 다양한 산업과 비즈니스, 실생활에 영역까지 그 범위가 확대되었고, 많은 사람들이 AI 기술에 빠져 열광하고 있다. 즉 4차 산업혁명 시대의 핵심기술이 AI라는 사실은 누구도 부정하지 않을 것이다. L사의 인공지능 플랫폼은 어떻게 우리 일상생활에서 인공지능을 통한 편리함을 제공받을 수 있는지 보여주고 있다. 예를 들면 “하이 공기청정기 켜줘”라고 말하면 IoT 홈네트워크로 연결된 공기청정기가 작동하기 시작한다.

<그림1 L사 인공지능 플랫폼의 예>

출처 LG전자 공식 블로그


 AI(Artificial intelligence)의 개념부터 다시 정의해 보자. 누군가는 “인공지능이란 이거야!“라고 쉽게 정의할 수도 있다. 실제로 어떤 사람들은 공장에 MRP(자재소요계획), ERP(전사적 자원관리) 등과 같은 IT 프로그램이나 솔루션을 전사적 차원으로 일괄적으로 적용했던 것처럼 인공지능 기술도 가능하지 않겠냐고 반문하시는 분도 있다. 또한 데이터 분석이라는 개념과 경험이 없는 상태에서 인공지능이 단순한 컴퓨터 프로그램 개발 영역인 것처럼 인식하는 경우도 많다.

  ERP(전사적 자원관리)와 같이 업무나 공정 프로세스를 처리하는 소프트웨어는 과거의 데이터가 없어도 현재부터 처리되는 결과를 저장해도 업무를 처리하는 데 문제가 없다. 하지만 인공지능 기술과 같은 데이터 분석은 과거의 데이터가 없으면 시작 자체가 불가능하다.

  인공지능 기술이 로봇을 만드는 것이라고 생각하는 사람도 있다. 로봇의 핵심이 인간과 같이 생각하는 지능이라는 점에서 일부 맞지만, 인공지능 기술이 로봇 기술은 아니다. 최근에는 가상 비서 개념으로 일정을 알려주거나, 내게 필요한 날씨, 뉴스, 쇼핑, 영화, 뮤직 등의 정보를 제공해주는 기능까지 인공지능 기술은 일상생활 속으로 더 정밀한 서비스로 진화하고 있다. 그래서 인공지능 기술이 활용 목적에 따라 전문가가 아닌 사람들이 보기에는 그 정의가 혼란스러울 것이다.

 실제 인공지능 기술이 현장에 적용되는 과정을 살펴보면, 사람들이 하던 일들이 인공지능 기술로 대체되고 있다. 센스나 장비, 기기 등의 현 상태를 모니터링하는 단순한 영역부터, 복잡하고 불확실한 미래상황을 추론하는 영역까지 인공지능 기술이 적용되고 있다. 데이터 과학자의 관점에서 기계학습(machine learning)이나 딥러닝(deep learning) 모두 인간의 지능을 대체한다는 점에서 인공지능(Artificial intelligence, AI)이라고 정의할 수 있으며, 궁극적으로 인공지능이란 데이터를 기반으로 학습된 분석모델을 통하여 위험을 줄이고 효율성을 증대하고 비용을 감소하는 목표를 사람 대신 기계의 판단에 맡기는 것이다.

 “인공지능이 왜 필요한 것인가?”라는 질문의 답은 어찌보면 명백하다. 사람 대신 기계가 일을 대신하는 것이다. 예를 들면 은행에서 자금세탁과 같은 범죄를 찾기 위해 얼마나 많은 사람들이 일일이 거래내역을 살펴보아야 하겠는가? 사람들이 수작업으로 많은 시간과 비용을 들여 불법 자금 내역을 찾는 것이 정말 효율적인 작업인가? 은행에서 어떻게 인공지능이 활용되는 지를 살펴보면, 왜 인공지능이 필요한 지 쉽게 이해할 수 있을 것이다. 매년 은행에서는 잠재적인 자금세탁방지(Anti-money laundering, AML)를 위해 탐지, 조사 및 모니터링 등에 수백만 달러의 예산을 투입하고 있다. 금융 규제 당국에서는 부적절하거나 의심스러운 수많은 자금세탁 경우의 수를 수시로 수작업으로 조사할 수는 없다. 결과적으로, 은행에서 잘 설계된 시스템을 통해 이를 걸러서 조사해야 하며, 조사를 통해 자금세탁이 의심되는 사람과 증거를 찾아 금융 규제당국에 보고하면, 금융 규제당국은 의심스러운 사람을 조사하고 자금세탁에 따른 징벌적 세금을 부과할 것이다. 실제 글로벌은행 C사의 경우, 이와 같은 시스템을 구축하여 잠재적인 자금세탁 혐의자를 찾고, 이상 거래를 모니터링하고 있다.

<그림2 C사 자금세탁방지 고객 세분화 모델링 예>


 자금세탁 뿐만 아니라 금융사기로 인한 손실이 매년 증가하여 2017년 기준, 전 세계적으로 금융사기로 인한 손실이 200억 달러에 이른다고 한다. 그럼에도 불구하고 많은 은행들이 다양하고 새로운 형태의 불법을 저지르는 지능화된 조직이나 기업을 고비용의 구식 규칙 기반 금융사기 시스템과 금융사기 방지 솔루션 공급 업체에서 제공하는 블랙박스 모델로 아직까지도 감사(Audit)하고 있다.

 매번 새로운 규칙을 적용하고 변화에 빠르게 대응하기 위해서는 몸값이 높고 능력이 많은 데이터 분석가와 과학자가 필요하다. 모델 갱신의 시간과 물리적인 한계가 있어 학습을 통한 새로운 규칙을 찾고 적용할 수 있는 새로운 접근이 반드시 필요하다. 분석 전문가의 수작업이 아니더라도 효과적이고, 비용측면에서도 효율적인 방법을 찾아야 하는 시점이다.



Auto machine learning(ML)이라는 새로운 시도와 필요성

 새로운 금융사기 패턴과 복잡한 거래 내역 속에서 사람보다 정확하게 불확실한 정보만으로 빠른 추론을 가능한 시스템이 있을까? 새로운 패턴의 정보에 대해 실시간으로 학습하고 모델을 자동으로 갱신할 수 있는 방법은 없을까? 

 최근 Auto Machine Learning(ML)이라는 새로운 개념이 이슈가 되고 있다. 개념을 살펴보면, 데이터 과학자, 머신러닝 전문가가 아닌 분석 전문 지식이 없는 일반 사용자일 지라도 쉽게 머신러닝 분석을 자동으로 생성하고 활용 가능하게 하는 방법이다. 수집·정제된 데이터만 있다면 자동으로 분석 모델을 학습하고 갱신하여 최적의 분석 알고리즘을 추천받아 업무에 적용할 수 있다. Auto ML 서비스는 버튼 클릭만으로 기계 학습 서비스를 제공받으며, 일반사람들이 전문적으로 알고리즘 구현, 데이터 파이프 라인, 코딩 등을 모르더라도 최적의 분석 모델을 생성할 수 있다. 그래서 처음 이런 서비스나 솔루션을 접한 일부 사람들은 ‘만세!’라며 환호하고 이제 분석을 몰라도 되겠다고 말할 수도 있다. 

 그러나 결론만 먼저 말하면 일부는 맞고 일부는 틀리다. 다만 ‘오호’라는 표현이 가장 적절하다고 생각한다. 왜냐하면 Auto ML 서비스가 없는 이전 보다 확실히 시간적, 비용적 측면에서 효과적이고 효율적이기 때문이다. 사람들이 다 검토해야만 했던 모델 최적화를 기계가 대신해준다는 측면에서만 봐도 정말 ‘오호’라는 말로 표현하는 것이 맞다.


대표적인 Auto ML인 데이터로봇의 기능을 살펴보면 다음과 같다.

 ❑ 데이터 사전 처리 → 30여개 기법 중 최적 모델 선택 → 모델 하이퍼 매개 변수 최적화 후 처리 분석 모델 배포

 ❑ 로지스틱, 랜덤포레스트, 서포트벡터머신, Lasso, 베이지안, 신경망 모델 등 30여개의 분석 모델 중 최적 모델 선정

 ❑ 사람이 아닌 기계를 통한 최적화로 모델 구현 공수 70% 감소 효과

<그림3 대표적인 Auto ML 소프트웨어 'DataRobot'>


 기계학습(machine learning) 이나 딥러닝(deep learning) 프로그램 등의 인공지능을 개발하기 위해서는 절대적으로 인공지능 전문가, 데이터 사이언티스트 확보가 필요하다. 그리고 그 중 가장 어려운 부분인 모델을 배포하고, 자동으로 학습하고 갱신하는 자동화 프로세스를 Auto ML 서비스나 솔루션이 있다면 쉽게 분석모델을 시스템에 적용시킬 수 있다. 굉장히 고무적인 일이기에 분명하다. 왜냐하면 분석가나 데이터 과학자의 경우, 분석 모델을 시스템 적용하는 개발 영역을 분석가가 본인이 직접해본 경험이 거의 전무하고, 분석가의 IT지식으로는 개발자의 역할을 대신할 수 없기 때문이다.

 앞으로는 전체 분석 프로세스의 범위에서 보다 중요하고 집중적인 부분에서 전문 분석가와 데이터 사이언티스트의 역할이 강조될 것이다. 버튼 클릭을 하더라도 원리와 개념을 이해하지 못하는 사람이 한다면, 잘못된 부분을 나중에 판단할 수 있겠는가? 누구도 보장할 수 없다. 그래서 Auto ML 서비스가 있다고 해서 인공지능 전문가, 데이터 사이언티스트가 필요 없다고 단정 지어서는 안 된다. 여기서 접근을 잘해야 하는데, Auto ML 솔루션이나 서비스가 부족한 인공지능 전문가의 수요를 어느 정도 충족시키면서, 잠재적인 머신러닝 개발자의 수를 늘리는 효과를 낼 수 있다는 가능성에 무게를 더 실어주는 것이 맞다고 생각한다. 왜냐하면 전문가는 비록 아니지만, 서비스나 솔루션을 활용하면서 분석의 이해와 원리를 학습함으로써 데이터만 마련한다면 실제 업무에 분석모델을 적용할 수 있기 때문이다. 


 현재 구글과 아마존, 마이크로소프트에서 클라우드에 Auto machine learning(ML) 서비스를 확대하고 위해 지속적인 아키텍처 연구과 테스트가 진행 중이며, 앞으로 많은 기업과 사람들이 인공지능 활용에 적합하지 않다고 여겼던 분야에서 Auto machine learning(ML)을 통해 새로운 비즈니스와 가치 창출을 위해 시도하게 될 것이라고 예상된다. 앞으로 더 인공지능은 빠른 속도로 일상 속 깊숙이 자리 잡게 될 것이다. 머신러닝 모델과 알고리즘을 통해 새로운 비즈니스 가치를 창출하고, 우리 삶이 더욱 편해지는 날이 멀지 않은 것 같다. 




기고 | 빅데이터사업본부 조치선

편집 | 사업기획팀 박예영

IT 만평 | 미리 보는 미래, 수능편

기술이야기/IT만평 2018.10.01 14:32




에듀테크 [Edutech]


- 교육(Education)과 기술(Technology)의 합성어로 교육과 정보통신기술을 결합한 산업


교육에 미디어, 디자인, 소프트웨어(SW), 가상현실(VR), 증강현실(AR), 3D 등 정보통신기술(ICT)를 접목해 학습자의 교육 효과를 높이는 산업으로 에드테크(Ed-Tech)라고도 한다. 단순히 교육을 온라인으로 제공하는 이러닝(e-learning) 단계를 넘어 개개인의 수준에 따른 맞춤 교육까지 가능해 새로운 학습 경험을 제공한다는 점에서 기존 교육 현장을 변화시키는 데 중요한 역할을 하고 있다. 특히 에듀테크는 1990년대 후반 이후 출생해 TV보다는 스마트폰 등 모바일 기기에 익숙한 모모세대(More Mobile Generation)를 대상으로 한다.   


출처 : [네이버 지식백과] 에듀테크 (시사상식사전, 박문각)



함께 보면 좋은 콘텐츠


[출처: 중앙일보] [교실의 종말] 호주 교실 한복판에 심장 뛰고 달이 돈다 


[출처: 바이라인네트워크] AI가 공부 시켜주고, 시험문제 알려준다


[출처: MTN머니투데이방송 Youtube] '에듀테크'로 진화하는 교육업계, 기술 융합 속도낸다



기술자문 | 사업기획팀 윤효근

기획 및 글 | 디자인기획팀 이단비

그림 | 디자인기획팀 김보명





SINSIWAY PRODUCTS | 페트라(PETRA) 시리즈를 소개합니다

기술이야기/신시웨이 2018.10.01 14:31





신시웨이는 서로 존중하는 사람들이 만든 최고의 경쟁력을 갖춘 DB 보안 전문 기업으로, 글로벌 수준의 기술력과 신뢰성을 갖춘 페트라(PETRA) 시리즈를 통해 완벽한 DB 보안 플랫폼을 제공합니다. 


[신시웨이 사업영역]





이번 시간에는 신시웨이의 페트라(PETRA) 시리즈에 대해 알아보도록 하겠습니다. 




  페트라 | DB 접근제어 솔루션


우리는 데이터가 폭발적으로 급증하는 시대에 살고 있습니다. 기업들은 개인정보 및 기업 기밀문서, 핵심 정보 유출 등 다양한 형태의 DB 유출사고 위협에 노출되고 있습니다. 이러한 DB 유출을 차단하기 위해서는 불법 사용자의 DB접근을 통제해야 합니다.

 PETRA는 개인정보보호법, 정보통신망법 등 여러 가지 법률에서 요구하는 개인정보에 불법 사용자의 접근을 통제하는 DB접근제어 솔루션입니다. PETRA는 다수의 기술 특허를 획득한 제품으로서, 여러 단계에 걸쳐 불법 사용자의 접근을 통제하는 완벽한 보안을 제공합니다.



[PETRA 주요기능]


PETRA의 주요 특징은 아래와 같습니다.

 ① 다양한 구성방식 지원을 통한 기업 환경에 적합한 보안 솔루션 제공

 ② 고성능 아키텍처 메모리 데이터 베이스(SOHA) 이용 - 초고속 규칙처리 가능

 ③ 접근제어 정책 중앙관리 

 ④ 우회불가 SQL 마스킹 제공


PETRA의 상세 기능 및 특징은 향후 신시웨이 제품의 모든 것, 『PETRA』 편을 통해 확인하실 수 있습니다.




  페트라 사인 | DB 권한결재 솔루션


내부 사용자에 의한 중요정보 유출 빈도가 높아짐에 따라 중요정보에 대한 철저한 통제와 내부사용자의 DB취급 사유를 관리하는 것이 중요합니다.

 PETRA SIGN은 DB접근제어 솔루션 PETRA에 Web 기반의 전자결재시스템을 결합한 DB권한 결재 솔루션입니다. 보안대상의 개인정보 및 중요정보를 안전하게 보호함과 동시에 사용자의 업무 정당성을 제공합니다. 

[PETRA SIGN 구성도]


PETRA SIGN의 주요 특징은 아래와 같습니다. 

 ① 다양한 권한 요청 양식 제공

 ② 원장 정정 및 데이터 변경 기능

 ③ 권한 관리 및 선택적 로그 조회

 ④ 전자결재시스템

 ⑤ 연동 및 커스터마이징


PETRA SIGN의 상세 기능 및 특징은 향후 신시웨이 제품의 모든 것, 『PETRA SIGN』 편을 통해 확인하실 수 있습니다.




  페트라 사이퍼 | DB 암호화 솔루션


 개인정보 유출에 따른 피해의 증가, 개인정보보호법에 의한 처벌 강화 등 개인정보를 취급하는 모든 기업은 정보유출에 대한 기술적인 안전조치가 필요합니다. DB암호화는 그에 따른 개인정보 유출을 막을 수 있는 최고의 솔루션입니다. 

PETRA CIPHER는 여러 가지 법률에서 요구하는 개인정보를 다양한 방식으로 완벽하게 암호화하여 보호하는 솔루션입니다. PETRA CIPHER는 국내 최초 CC인증(EAL3)을 획득한 제품으로서, 뛰어난 성능 및 안정성과 관리용이성, 신시웨이 DB 접근제어 솔루션 PETRA와 완벽한 연동을 지원합니다.



[PETRA CIPHER 주요기능]

 

 PETRA CIPHER의 주요 특징은 아래와 같습니다.

  ① 다양한 구성방식 지원을 통한 기업 환경에 적합한 보안 솔루션 제공

  ② 안정한 키 생성 및 관리

  ③ 다양한 키관리 - 외부키, 로컬키, 대량키

  ④ 고성능·고기능 제공

  ⑤ 안정된 구축 지원 및 편리한 UI 제공

  

PETRA CIPHER의 상세 기능 및 특징은 향후 신시웨이 제품의 모든 것, 『PETRA CIPHER』 편을 통해 확인하실 수 있습니다.




  페트라 사이퍼 파일 암호화 옵션 | 파일 암호화 솔루션


 일정한 규격이나 형태를 지닌 숫자데이터와 달리 로그파일 또는 음성, 이미지 등 비정형 파일이 유출될 경우 개인정보 노출 및 범죄에 악용될 가능성이 높습니다. 개인정보보호법은 공공, 금융, 의료 등 각 분야별로 적용되던 규범을 일원화하였고, 이에 따라 개인정보를 취급하는 모든 기업 및 단체는 정보유출에 대한 기술적인 안전조치가 필요합니다. 기존의 정형데이터 뿐만 아니라, 개인 이미지, 로그파일, 녹취, 영상 등 비정형데이터도 모두 암호화하여야 합니다. 

 PETRA CIPHER 파일 암호화 옵션은 여러 가지 법률에서 요구하는 개인정보를 포함한 파일(로그, 이미지, 영상, 음성 등)을 다양한 방식으로 완벽하게 암호화하여 보호하는 솔루션입니다. PETRA CIPHER 파일 암호화 옵션은 다수의 은행 및 카드사 등에서 기능 및 성능을 입증 받은 국내 제1의 파일 암호화 솔루션입니다.


 PETRA CIPHER의 주요 특징은 아래와 같습니다.

 ① 다양한 구성방식 지원을 통한 기업 환경에 적합한 보안 솔루션 제공

 ② Static(이미지, 녹취등) 파일 암호화

 ③ SAM(정형) 파일 암호화

 ④ 커널 암호화

 ⑤ 로그 파일 특정 패턴 암호화


PETRA CIPHER 파일 암호화 옵션의 상세 기능 및 특징은 향후 신시웨이 제품의 모든 것, 『PETRA CIPHER 파일 암호화 옵션』 편을 통해 확인하실 수 있습니다.




편집 | 사업기획팀 박예영







월간 기술동향 | 가장 가까운 머신러닝, 추천 서비스


추천 시스템(Recommendation System)이란?

 대상자가 좋아할 만한 무언가를 추천하는 시스템을 말한다. 아마 대부분의 사람들은 최소한 한 번쯤 이미 추천시스템을 경험했을 것이다. 쇼핑을 하기 위해 사이트를 방문하여 특정 상품의 정보를 얻기 위해 클릭을 하면, 화면 어딘가에 추천아이템, 인기아이템, 당신이 좋아할 만한 아이템 등 다양한 이름으로 상품을 추천하는 것을 쉽게 발견할 수 있다. 또한 시스템의 문제에 대한 해결 방법 추천과 건강에 대한 치료 방법 추천과 같은 다양한 범위에서 추천 시스템이 활용될 수 있다.


 추천시스템은 아마도 일반인들이 가장 빈번하게 접하는 머신러닝 서비스라고 얘기해도 과언은 아닐 것이다. 그만큼 추천시스템은, 특히 IT 서비스에서는 매우 중요한 핵심적인 기술이라고 할 수 있고, 전자상거래 관련 회사들은 추천시스템을 준비하거나 운영하고 있다.


추천 시스템의 주요 기술

 추천 시스템의 주요 기술은 2가지가 있고, 이 둘을 혼합하여 사용 가능하다.

<그림1 | 사용자 기반 추천(좌)과 아이템 기반 추천(우)>


1. 아이템 기반 추천 : 사용자가 구매한 물건과 유사한 물건이나 연관성이 높은 물건을 추천하는 방식

2. 사용자 기반 추천 : 사용자를 유사한 사용자별로 그룹핑하고 해당 사용자 그룹내의 사용자가 구매한 물품을 그룹의 다른 사용자에게 추천하는 방식

3. 혼합형 추천 : 사용자를 그룹핑하고, 해당 그룹의 사용자가 구매한 물품들을 아이템 기반으로 연관성을 분석하여 연관성이 높은 물품을 해당 사용자 그룹에 추천하는 방식


 주요 기술의 장점 및 단점은 아래 표와 같으며, 대표적인 추천 알고리즘으로 Collaboration Filtering(CF, 협업 필터링)을 적용하고 있다.

<표1 | 추천 서비스 주요 기술의 장단점>


 그리고 최근에는 딥러닝 기술과 결합된 추천 방법을 개발하고 있거나 연구하고 있다.


성능평가

 Collaboration Filtering을 이용해 추천시스템을 개발했다면 해당 시스템의 성능을 평가해야 한다. 성능평가는 주로 A/B 테스트를 적용한다.

※ A/B테스트: 기존의 제품 또는 알고리즘과 신규로 적용한 알고리즘을 비교 평가하는 방식


추천 시스템의 활용 사례

 마지막으로 추천 시스템(Recommendation System)의 활용 사례를 보자. 사례를 보면 더 이해하기 쉬울 것이다.


1. YouTube

 유튜브는 비디오 메타데이터(장르, 태그정보, 상영시간 등), 사용자 접속정보(로그인, 미로그인), 사용자 정보(로그인), 비디오 클릭 수, 비디오 플레이타임 정보 등의 정보들을 이용해 추천시스템을 운영하고 있다. 또한, 로그인 상태에 따라 다른 추천 방식을 적용한다. 미로그인 시(기본)에는 아이템기반으로 Collaborative Filtering 모델을 적용하여 추천하고, 로그인 후에는 사용자기반으로 Deep Collaborative Filtering 모델을 적용 중이다.


2. 아마존

 아마존은 평점(Rating),구매행위(Buying Behavior) 그리고 검색행위(Browsing Behavior) 정보들을 이용해 추천시스템을 운영하고 있다. 또한 자체적으로 기존 데이터를 기준으로 추천하는 Item-to-Item Collaborative Filtering 알고리즘을 개발했다.

<그림2 | 아마존이 특허 출원 시 제출한 추천 시스템 요약도>


 이 외에도 넷플릭스, 페이스북 등 다양한 기업에서 추천시스템을 활용하고 있다.



Reference

https://www.oss.kr/info_techtip/show/5419f4f9-12a1-4866-a713-6c07fd36e647 

https://medium.com/@cfpinela/recommender-systems-user-based-and-item-based-collaborative-filtering-5d5f375a127f 





기획 및 글 | 사업기획팀 박예영

기술 협조 | 사업기획팀 윤효근 박사


엑기스 | 쉽게 이해하는 시계열데이터 비정상탐지

기술이야기/엑.기.스 2018.09.05 13:29


"엑기스"라는 단어, 어떤 느낌이신가요?

무언가 알차게 꽉- 농축되어 있는 그 느낌!

지금부터 엑셈의 기술 스토리, 엑기스를 알차게 전해드립니다!

엑기스 첫 번째 스토리, 지금 시작합니다.


불과 1개월 전만해도 111년만에 한국 사상 최고의 더위가 찾아왔었다.

Figure 1. 정말 너무 더웠다...

<출처 | YTN NEWS(http://www.ytn.co.kr/)>


현재 낮기온은 1개월 전보다 섭씨 10도씨 이상 낮아지고 일교차는 크게는 15도정도 난다.

이런 비정상'스러운' 날씨를 어떻게 발견할 수 있을까? 미리 예측은 할 수 있을까?

웹 어플리케이션을 운영하는데 디도스(DDOS) 공격이 온 것을 빠르게 알아낼 수 있을까?


시계열 데이터


위에 언급한 문제들을 풀기 위한 답은 '데이터'에 있다. 날씨의 경우에는 우리나라의 역사적으로 기록된 기온과 주변 국가, 지구의 기온 변화 등이 모두 데이터로 사용될 수 있다.

또한 DDOS 공격으로부터의 빠른 탐지는 '기존 데이터'를 잘 분석한다면 비정상 움직임을 캐치할 수 있을 것이다. 이처럼 매력적인 시계열 데이터에 대해서 조금 더 알아보자.


시계열 데이터를 다루는 사람들의 관심 있는 주제는 보통 크게 2가지이다.


1.데이터 예측

2.비정상데이터 탐지


오늘 이 글에서 얘기하고자 하는 것은 1번 예측이 아닌 2번 비정상데이터 탐지이다.


비정상데이터


Figure 2 비정상회담과 비정상탐지는 아무 관련이 없고 이 글은 상사가 시킨 글쓰기가 아니다.

<출처 | JTBC 비정상회담 화면 캡쳐(http://tv.jtbc.joins.com/nonsummit)>


시계열 데이터에서 비정상이라고 하면 뭘까? 일반적인 비정상에 대해서 사전을 통해 알아보도록 하자. 

네이x 사전에 의하면 비정상의 사전적 의미는 '정상이 아님'이라고 정의한다.

그렇다면 정상 또 정상이 뭔지 찾아보도록 하자.

Figure 3 정상의 정의

<출처 | 네이버 국어사전(https://ko.dict.naver.com/search.nhn?query=%EC%A0%95%EC%83%81&kind=all)>


그렇다. 우리가 직관적으로 예상할 수 있는 대로 탈 없는 상태이다. 

결국 비정상 데이터라고 하면 '탈이 있는 데이터'이고 우리는 이를 잘 탐지하기만 하면 된다.


흔히 비정상 데이터를 다음의 3가지 경우로 분류한다.


1.평소보다 데이터가 심하게 크거나 작을 경우

2.일시적인 데이터의 패턴 변경

3.데이터의 크기 변경


대부분의 비정상 데이터들은 위의 3가지 분류에 속하게 된다.


어떤 데이터로


데이터분석은 같은 데이터의 모양이라고 하더라도 도메인에 따라서 접근법이 많이 다를 수 있다. 

결국 고객이 무엇을 원하는지 요구사항을 잘 파악하여야 문제를 잘 정의하고 이에 따른 분석방법, 해결책이 나올 수 있다.


필자의 의견인데 좋은 알고리즘과 모델을 찾는 것보다 요구사항을 분석하고 문제를 정의하는 과정이 제일 중요하다고 생각한다.

온천수가 나오는 땅을 찾기 위해 삽질을 해야하는데 이를 은삽으로 팔지, 금삽으로 팔지, 모종삽으로 팔지, 혹은 포크레인 기사를 불러서 땅을 파야할 지 고민하기 전에 우리 집 마당인지 뒷 산인지, 이 땅의 성분 요소는 무엇인지 잘 아는 것이 더 중요하다. 아무리 좋은 삽을 고르더라도 남의 땅을 파면 안되는 것 아닌가?


이 글에서는 서버 위에 가상 쇼핑몰을 만들고 부하를 만들어서 얻어낸 데이터베이스의 Active session data를 가지고 여러가지 시도를 해보도록 하겠다.


가장 쉬운 접근 방법


STL decomposition

STL Decomposition은 시계열 데이터를 Seasonal, Trend and residual로 분해하여 분석하는 알고리즘이다.

Figure 4 Y(t) = S(t) + T(t) + R(t)


STL은 트렌드를 찾아내는 곳에서도 사용될 수 있지만 Residual Graph를 잘 보면 비정상포인트를 찾을 수 있다. 

python에 STL library들이 많기 때문에 구현이 쉽고 데이터의 특성을 확인하기 편하다.


장점

장기적 데이터에서 뚜렷한 주기, 트렌드를 구분 짓고 구현이 쉽다.

단점

데이터가 많이 출렁이거나 등락이 강할 경우에 트렌드함을 가지지 못해 분석 결과를 결론 짓기 애매한 경우가 많다.


Classification and Regression Trees

필자도 학습자이기에 Anomaly detection in time series 이런 식으로 구글링을 해보면, 자주 나오는 것이 CART(Classification and Regression Trees)이다.

정상과 비정상데이터가 레이블링(Labeling)이 되어있는 데이터를 가지고 있을 때 사용할 수 있다. 

최근 캐글(Kaggle)을 통해서 핫해진 xgboost의 경우도 CART의 진보된 버전이다.

Figure 5 CART의 시작


장점

Supervised learning이므로 다른 알고리즘보다 한단계 더 직관적 결과를 얻을 수 있다.

단점

Labeling data가 없으면 분석이 불가능하다.


Moving Average

Moving Average(a.k.a 이동평균선)은 데이터의 추세를 볼 수 있는 가장 고전적이고 쉬운 방법이다. 

간단하게 앞선 특정 기간의 데이터값의 평균값을 데이터로 하여 전 구간의 평균값을 구하는 것이다.

이동평균선을 구하고 각 지점에서의 표준편차값을 이용해 신뢰구간을 그린 다음에 실제 데이터들이 이 신뢰구간을 벗어났다면 비정상이라고 판단할 수 있다.


(빨간 동그라미) 이동평균선을 통해 비정상탐지를 할 때 가장 중요한 점은 '어느 기간의 이동평균'을 잡느냐가 중요하다. 

데이터의 성격에 따라 달라지니 반복된 수행을 통해 최적의 윈도우 사이즈를 찾아야한다.

Figure 6 이동평균선을 이용한 비정상탐지 - 빨간 원


장점

계산이 빠르고 직관적이고 어느 데이터에서든 사용이 가능하다.

단점

많은 테스트가 필요하고 사용자의 경험치가 중요하다. (윈도우 사이즈 결정 시) 추가적으로 비정상 케이스 1번의 경우에만 잘 맞는 경향이 있다.


Prophet

페이스북에서 만든 비정상탐지 알고리즘이다. 이 알고리즘의 가장 큰 장점은 사용하기 쉽다는 점이다. 그 이상은 없는 것 같다.

아주 예쁜 데이터의 경우 잘 들어 맞지만 예측 커브를 아주 예쁘게 그리는 바람에 진폭이 큰 데이터의 경우 정확도가 떨어지는 경향이 많다.


아래 그림에서 보면 회색 밴드를 벗어난 붉은 원으로 표시된 곳이 비정상으로 벗어난 곳이라고 할 수 있다.

Figure 7 Prophet library를 이용한 비정상탐지

장점

구현이 쉽고 Daily, Weekly, Montly 등 장기적 데이터에 적합하다.

단점

Library에 종속되어서 데이터에 따른 디테일한 변경이 쉽지 않다.


조금 더 심도있게


Clustering

K-means Clustering을 이용하여 비정상탐지를 할 수도 있다. 

이 때 주요 개념으로 rolling(혹은 moving) window를 이용하여 클러스터링을 위한 데이터셋을 만들고 이를 K-means를 이용하여 모델을 학습한다.


그리고 새로운 데이터(혹은 기존 데이터)를 분석하여 기존에 가지고 있던 클러스터(군집)에 분류시켜 이상치를 벗어난 데이터들을 발견해낸다.

Figure 8 Clustering을 이용한 비정상탐지


장점

데이터의 크기와 패턴을 고려해 비정상탐지를 하여 비정상 포인트를 포함한 구간을 찾는데 유용하다.

단점

메모리 사용량이 꽤 많고 정확한 지점을 찾기 힘들다.


Neural Networks - LSTM

좋은 연구 과제이다. 정확도 높은 네트워크를 찾는다면 이보다 좋은 모델은 없을 것이다. 

LSTM은 특히 NN에서 time을 고려한 모델인만큼 데이터의 성격에 따라 효과가 클 것이라고 생각한다.


하지만 이 분야는 계속 연구 중이고 데이터 의존성이 크기 때문에 많은 시도와 모델 튜닝이 필요하다.

Figure 9 여러분의 과거 데이터를 봤을 때 새벽 1시에 치킨을 먹는 것은 정상입니다. ???


그래서 뭐가 좋은지?


그래서 어떤 알고리즘을 써야 하는지 알고 싶으면? 정답은 데바데(데이터 바이 데이터, Data by Data). 


그럼 어떤 데이터의 경우 가장 맞는 알고리즘인지 알려면? 

가장 쉬운 알고리즘부터 하나씩 적용해보면서 좋은 결과가 나오는 알고리즘을 택하는 것이다. 


글의 서두에 말한 데이터베이스의 active session 수를 파악하는 데에는 단기적으로는 Moving average가, 장기적으로는 Prophet이 적용가능한 범주에 있었고 결과 또한 좋았던 것 같다.

이래나 저래나 비정상이라고 탐지한 것들이 정확성을 체크하기 위해서는 그 역으로 판단을 해봐야한다. 

메모리 사용에 제한이 없는 report 하기 위한 데이터분석 과정이라면 여러 알고리즘을 사용해서 중복된 포인트들을 찾는 것도 나름의 방법이다.




(급)마무리


시계열 데이터로 미래 예측, 비정상탐지, 인과관계 분석 등을 팀에서 연구하고 있다. 비정상탐지의 경우에는 Moving average를 기반으로 단기적 변화에 대해서 탐지하고 있고 Prophet library에서 아이디어를 발전 시켜서 장기적 비정상을 탐지하고 있다.

우리가 잘 해결한 부분도 있고 부족한 부분도 있지만 문제 해결을 함께 해 나감에 있어 도메인 지식이 있는 동료들과 분석에 함께 아이디어를 내주는 동료들의 도움이 큰 것 같다.

추가로, 비정상탐지 후에 다음 단계가 인과관계 분석, 근본원인 분석인데 서비스 개발이 완료된 후에 공유하도록 하겠다.






기고 | 강남연구소 김정우

편집 | 사업기획팀 박예영


IT 만평 | AI가 바꾸는 미래, 음식 편

기술이야기/IT만평 2018.09.05 13:29




2D 프린터로 글자나 그림을 인쇄하듯, 3D 프린터로 음식도 프린트 할 수 있어요.

TV 속 리포터들이 "저희만 먹어서 죄송하네요. 시청자 분들 드세요 아~" 하면,

우린 그저 상상만 할 수 있던 그 맛.

 

앞으론 "드시고 싶으시죠? 그럼 앱에서 레시피를 다운받아 프린트해보세요!" 라고 할 수도 있고,

웨이팅이 길어 도저히 갈 수 없었던 유명 쉐프의 음식을 집에서 재현할 수도 있고,

음식 데이터(레시피)를 업로드 함으로써 어디서든 같은 맛을 보장할 수도 있겠죠.

 

또 많은 사람들의 데이터가 쌓이고 쌓여 빅데이터를 이루고 인공지능 까지 접목된다면

집에 도착하자마자 '알아서' 음식을 준비해놓는 날도 오지 않을까요?

 

시간·공간적 제약을 뛰어넘는 푸드테크의 시대가 기대됩니다.

물론 그전에 3D프린터를 사야겠지만요(눈물)




글 | 디자인기획팀 이단비

그림 | 디자인기획팀 김보명




  • 아무나대잔치 2018.09.21 16:54 신고 ADDR 수정/삭제 답글

    이건 좀 아니지 않나해서ㅋㅋ
    근거도 없이 아무말 대잔치처럼...
    아직 3D프린팅이 가지도 않은 음시을 가지고....
    인공지능 소개도 약하구....

    • 메세지전달에실패하여슬픈기획자 2018.09.21 18:05 신고 수정/삭제

      안녕하세요! 이번 3D 프린터 음식편을 기획한 사람입니다. :-) 첫 댓글, 소중한 의견 무척 감사드립니다. 사실 이번 편의 기획은 3D 프린터, 푸드테크 라고도 불리는 기사와 글, 유투브의 동영상들을 참고해서 기획하게 된 것입니다. '3D 프린터 음식' '푸드 프린팅' 등으로 검색하시면 되고, 그 중 가장 최신의 링크 두 가지를 공유 드립니다. (링크 복사가 오류나서 아래 리플에 각각 하나씩 달았어요! 참고해주세요 ^.^)

      또한 메인 부제가 AI가 바꾸는 미래 인만큼 인공지능에 대한 부분도 더욱 강조되었어야 했는데 아무래도 3D 프린터에 집중하다보니 약해졌던 것 같습니다. ㅠㅠ 다음부턴 참고한 기술자료 링크도 같이 공유드리고, 인공지능 기술 부분도 조금 더 신경쓰도록 해볼게요. 소중한 의견 다시한번 감사드립니다. ^^

    • 메세지전달에실패하여슬픈기획자 2018.09.21 18:08 신고 수정/삭제

      http://theleader.mt.co.kr/articleView.html?no=2018090418197850016

    • 메세지전달에실패하여슬픈기획자 2018.09.21 18:08 신고 수정/삭제

      https://blog.naver.com/smart_3d/221362047391

  • 미래소년 2018.09.21 17:31 신고 ADDR 수정/삭제 답글

    참 좋은 컨텐츠인것같아요 불과 몇년전만해도 스마트폰으로 모든 일을 처리할 거라고 생각도 못하고 막연히 그런 세상이 오겠지 생각했던것 같아요. 그렇지만 얼마안가 생각도 못할만큼 세상은 발전하고 있는것같습니다. 근거가 있어야만 발전하는건 아닌 세상이 되어가고 있는 요즘, 그리고 미래엔 3D프린팅을 이용한 다양한 미래뿐만 아닌 다양한 AI가 공존하는 미래가 멀지 않았다고 생각됩니다! 좋은 컨텐츠 감사합니다

  • 아무나대잔치 2018.09.21 17:48 신고 ADDR 수정/삭제 답글

    초등학교 상상그리기 시간에
    누구나 다 우주여행을 그렸었죠.....
    아무나 다!!!!!
    인공지능 컴퍼니가 그냥 상상그리기 했으니 닥치쇼는....ㅋㅋㅋ
    여튼 닥치겠습.....

  • 말뚝이 2018.10.04 16:36 신고 ADDR 수정/삭제 답글

    저기요... 블로그나 기사 링크하는게 출처/참조 자료가 되나요? 대학교 4학년에게 과제 작성하라고 해도 그렇게는 안 하겠습니다만... 음식의 정의가 뭔지는 아시는지

신시웨이 | SINSIWAY SECURITY SEMINAR 2018

기술이야기/신시웨이 2018.09.05 13:29


2018년 08월 21일 화요일, 양재 엘타워에서 신시웨이 보안 전략 세미나가 개최되었습니다. 

세미나는 인공지능기반 영상분석시스템 CYCLOPS 제품 소개로 시작하여,

PETRA SIGN (DB권한 결재 솔루션) 및 PETRA CIPHER (커널암호) 제품 소개 및 데모시연으로 나누어 진행되었습니다. 

개인정보보호 및 DB보안 최적화 전략 및 효율적인 방안에 대해 많은 정보들이 쏟아져 나왔는데요!

그 현장으로 함께 가볼까요 :) 



첫 번째 세션은 신시웨이 정재훈 대표이사님의 인사말 후, 

김광열 전무님께서 인공지능기반 영상분석시스템 (Cyclops)을 소개해주셨습니다. 

인공지능(AI) 플랫폼의 개념, 플랫폼(Cyclops) 엔진 구조, 응용제품에 대한 설명으로 진행되었습니다.


중간중간 다과와 커피 한 잔도 마시며, 궁금하신 부분도 얘기할 수 있는 시간을 마련하였습니다. 


두 번째 세션은 김광열 전무님께서 PETRA SIGN (DB권한 결재 솔루션)에 대해 소개해주셨습니다.

PETRA SIGN은 DB접근제어 솔루션 PETRA 에 웹기반 전자결재시스템을 더한 DB권한 결재 솔루션이며, 

웹기반 전자결재시스템과 사용자 권한 요청 인터페이스는 커뮤니케이션 비용을 감소시키고, 사용자 중심의 권한 관리 환경을 제공합니다. 


또한 PETRA SIGN 보안대상의 개인정보 및 중요정보를 안전하게 보호함과 동시에 사용자의 업무 정당성을 효과적으로 제공합니다. 

PETRA SIGN을 사용함으로써 정부 및 감독기관의 규제에 효과적으로 대응할 수 있으며, 관리 체계를 효율적으로 운영, DB보안의 수준이 향상 됩니다. 


QA부서 류대석 차장님의 시연을 통해 권한 결재 프로세스를 4단계에 걸친 권한 결재 프로세스, 단계별 기능 구성에 대해 상세히 볼 수 있는 시연이 진행되었습니다.  


마지막으로 정재훈 대표이사님의 파일암호분석 및 제품구성 및 기능에 대한 소개가 이어졌습니다.

파일암호란? 

데이터베이스처럼 잘 정리된 데이터가 아닌 말 그대로 형태가 정해지지 않은 데이터로 문서, 개인 이미지, 동영상, 음향, 로그데이터와 같이 형태가 다양하고 복잡한 구조를 가지고있는 데이터입니다.

구성방식으로는 실시간 파일암호화, 실시간 시스템 로그 암호화, 프로그램 내 파일 암/복호화, Static 상태의 파일 암호화 구성을 제공합니다.

주요기능 및 특징으로는 API, 자동 암호 Agent, AP 수정 없는 사용자 영역 암호 파일 시스템 등 다양한 방식으로 구현할 수 있습니다. 


또한 제주지사 R&D센터 강창봉 과장님께서 파일 내 부분 범위 암호화, SAM 파일 특정 칼럼 암호화, 실시간 시스템 로그 암호화, 안전한 키 관리, 암/복호화 수행 시 권한 통제 등을 시연하는 시간도 가졌습니다. 


보안의 중요성이 계속해서 높아지고 있는 만큼, 이번 세미나를 통해 보안 솔루션이 어떻게 진행되고 있는지 그 설명과 기능 및 시연을 한 번에 만나볼 수 있었습니다.  

세미나에서 발표된 제품들의 더 자세한 내용은 10,11월 뉴스레터에서 만나볼 수 있습니다. 

신시웨이 보안 세미나에 찾아주신 모든 분들 감사합니다 :)




편집 | 사업기획팀 박예영


플라밍고 | 빅데이터 성능관리 솔루션, 플라밍고

기술이야기/엑.기.스 2018.08.09 10:20



다양한 빅데이터 분석 환경에서 시스템 운영자 및 분석가는 시스템 성능 관리에 큰 어려움을 겪고 있습니다.

서버 중단 시 인지하기 조차 힘든 Scale Out 및 HA 특성을 가진 빅데이터 분석 환경을 보다 투명하게 관리할 수 있는 통합된 솔루션이 필요하죠. 

바로 엑셈의 Flamingo 입니다! 

빅데이터 성능 관리 솔루션 플라밍고가 업데이트 되었다고 하는데요, 함께 알아봅시다 :)



1. 제품 개요

Flamingo는 빅데이터 플랫폼인 하둡 클러스터의 통합 관리 솔루션으로, 하둡과 에코 시스템의 실시간 서비스 감시 및 주요 성능 지표의 수집, 진단 및 모니터링, 데이터 처리를 위한 워크플로우  작성, 데이터 분석 지원까지 이르는 하둡 시스템의 가용성 및 성능의 관리를 효율적으로 수행할 수 있도록 지원합니다.



2. 제품 특징
2.1 Realtime Monitoring
- Hadoop과 EcoSystem에 최적화된 다양한 성능 지표의 실시간 감시
- 지원 Hadoop Ecosystems
 (1) Hadoop Core Server 
 (2) Apache Spark
 (3) Apache Hive
 (4) HDFS
 (5) Apache Oozie
 (6) Zookeeper
 (7) HBase
 (8) Cluster Servers

2.2 Workflow
- 작성하기 어려운 워크플로우를 간단히 작성하고 손쉽게 테스트할 수 있는 환경 지원
- workflow지원 형식
 (1) Workflow (Designer & Monitoring)
 (2) Apache Oozie workflow (Designer & Manager & Monitoring)

2.3 Data Analysis
- 다양한 빅데이터 환경에서 필요한 정보 도출을 위한 분석 환경 지원
- 지원 방식
 (1) Notebook(R/python 등)
 (2) Hive, HBase Editor
 (3) R-Studio 연계 지원

2.4 Security
- 설정하기 어려운 Hadoop과 Ecosystems의 보안 및 권한레벨까지의 설정까지 쉽게 할 수 있도록 지원
- 지원 Ecosystems 
 (1) HBase
 (2) Hive
 (3) Kafka
 (4) Solr
 (5) NiFi
 (6) Yarn
 (7) HDFS



3. 제품 스펙


구분

내용

비고

OS

Linux Kernel 2.6 이상

CentOS 6 이상

Database

PostgreSQL 9.2 이상

UTF-8 Character Set
Oozie
모니터링은 현재 PostgreSQL만 지원

CPU

8Core 이상

Memory

16G 이상

Java

JDK 1.8 이상

Hortonworks HDP

Hortonworks HDP 2.4 이상

상세 기능 지원 여부는 확인 필요

Cloudera CDH

Cloudera CDH 5.4 이상

상세 기능 지원 여부는 확인 필요

Apache Hadoop

Apache Hadoop 2.3 이상

Web Browser

Internet Explorer 10+, Google Chrome, Safari, Firefox

Chrome 사용을 권장함

제품 권장 해상도

1440 X 900 이상

기타

Jupyter notebookSSL 기능 사용을 위해서는 URL
도메인 및 유료 인증서를 확보한 사이트만 적용 가능

URL 도메인 및 유료 인증서를 확보하지 못한
사이트에서는 HTTP 방식으로만 세팅 가능



4. 업데이트 내용

4.1 Apache oozie 지원 기능 향상

- Apache ecosystem 중 workflow scheduler system인 oozie를 손쉽게 사용할 수 있는 기능 대거 추가

- oozie workflow designer : oozie의 workflow를 GUI 기반으로 손쉽게 만들고 테스트 할 수 있는 디자이너 기능


- oozie coordinator designer : oozie의 coordiantor를 GUI 기반으로 손쉽게 만들고 테스트 할 수 있는 디자이너 기능


- oozie bundle manager : oozie의 bundle을 GUI 기반으로 손쉽게 만들고 테스트 할 수 있는 관리자 기능



4.2 Security 기능 추가

- Hadoop과 Ecosystem들의 보안을 손쉽게 설정하고 권한 레벨까지 설정할 수 있는 기능 추가 (Ranger 기반)

- 지원 Ecosystems 

(1) HBase

(2) Hive

(3) Kafka

(4) Solr

(5) NiFi

(6) Yarn

(7) HDFS


<policy 관리 화면>


<audit 화면>


<보안 관련 세팅 화면>



앞으로도 계속 발전해 나갈 Flamingo 많은 기대와 응원 부탁드립니다.^^

플라밍고 파이팅 :)




기고 | 빅데이터개발팀 한현우

편집 | 사업기획팀 박예영



IT 만평 | AI가 바꾸는 미래, 날씨 편

기술이야기/IT만평 2018.08.08 17:43







가뭄 시 '제발 비를 내려주세요~'하며 제사를 지내던 시절은 이미 옛 말!

기상청을 믿지 못하는 시절도 이젠 안녕!

지금은 인공지능으로 보다 더 정확하고 빠르게 날씨를 예측하는 시대!

인공지능을 통한 날씨 예측으로 가뭄에 미리 대비한다면?

올 해 농사는 대박 예측!





기획 및 글 | 사업기획팀 박예영

그림 | 디자인기획팀 김보명