AI의 한계와 현실적인 기대치
AI는 강력한 도구이지만, 만능은 아닙니다. AI 모델은 데이터 품질, 모델 선택, 알고리즘의 한계 등 다양한 요인에 의해 제약을 받을 수 있습니다. 이를 이해하고 현실적인 기대치를 설정하는 것이 필요합니다.
AI의 이러한 한계 속에서, 적절한 모델 알고리즘을 선택하는 것이 더욱 중요해졌습니다. 모델 알고리즘은 문제의 특성과 데이터의 특성에 따라 적합한 것을 선택해야만 AI가 제공할 수 있는 가치를 끌어낼 수 있습니다. 이번 섹션에서는 일반적으로 사용되는 AI모델 알고리즘들과 우리가 사용하는 다양한 모델 알고리즘에 대해 다루겠습니다.
AI 모델 알고리즘
AI 기술이 점점 발전하면서, 다양한 모델 알고리즘이 각광받고 있습니다. AI 모델은 특정 문제를 해결하기 위해 설계된 수학적, 통계적, 또는 딥러닝 기반 접근 방식을 포함하며, 각 알고리즘은 특정 상황에서의 데이터 처리와 분석에 최적화되어 있습니다. 일반적으로 AI 모델 알고리즘은 다음과 같이 구분될 수 있습니다.
- 지도학습(Supervised Learning): 주어진 입력과 출력 데이터를 기반으로 미래를 예측하는 모델로, 분류(Classification)와 회귀(Regression) 문제를 해결합니다. 대표적인 예로 Random Forest, Support Vector Machine (SVM), XGBoost 등이 있습니다.
- 비지도학습(Unsupervised Learning): 레이블이 없는 데이터를 탐색하며 패턴을 찾는 모델로, 클러스터링(Clustering)과 이상 탐지(Anomaly Detection)에 사용됩니다. K-means, Autoencoder 등이 이에 해당합니다.
- 강화학습(Reinforcement Learning): 환경과 상호작용하며 최적의 행동을 학습하는 모델로, 게임 AI나 로봇 제어에 활용됩니다.
- 시계열 분석 및 예측: 시간에 따른 데이터 변화를 분석하고 미래를 예측하는 모델로, ARIMA, LSTM(Long Short-Term Memory), Seq2Seq 등이 널리 사용됩니다.
- 그래프 신경망(Graph Neural Network): 데이터 간의 관계를 모델링하여 복잡한 네트워크나 상호작용을 분석하는 데 사용됩니다. GAT, GCN, GraphSAGE 등이 대표적입니다.
적절한 모델 알고리즘 선택의 예
상황에 따라 적합한 알고리즘을 선택하는 것은 AI 프로젝트의 성패를 좌우하는 핵심 요소입니다. 각 알고리즘은 특정 유형의 데이터와 문제에 최적화되어 있기 때문에, 잘못된 선택은 성능 저하나 불필요한 리소스 낭비를 초래할 수 있습니다. 다음은 상황별 적절한 알고리즘 선택의 간단한 예입니다.
- 문제: 고객 리뷰의 긍정 / 부정 분류
- 추천 알고리즘: 지도학습의 Random Forest 또는 XGBoost. 이러한 알고리즘은 텍스트 데이터를 벡터화하여 분류 작업에 효과적입니다.
- 문제: 구매 패턴 기반 고객 그룹화
- 추천 알고리즘: 비지도학습의 K-means. 고객 데이터를 클러스터링하여 비슷한 구매 습관을 가진 그룹을 식별할 수 있습니다.
- 문제: 게임 AI의 행동 최적화
- 추천 알고리즘: 강화학습. 환경에 따라 학습하며 최적의 전략을 수립할 수 있습니다.
- 문제: 서버 부하 예측
- 추천 알고리즘: 시계열 분석의 LSTM. 과거 데이터의 시계열 패턴을 학습하여 미래 부하를 예측합니다.
- 문제: 네트워크 트래픽의 이상 탐지
- 추천 알고리즘: 그래프 신경망 기반의 GAT. 네트워크 노드 간 관계를 분석하여 이상 트래픽을 탐지합니다.
이처럼 데이터의 특성과 문제의 성격에 따라 적절한 모델을 선택하는 것이 성공적인 AI 솔루션 구축의 핵심입니다.
우리가 사용하는 모델 알고리즘
우리 팀은 다양한 AI 모델을 사용해 실시간 이상 탐지, 부하 예측, 이벤트 예측, 로그 이상 탐지 등 다양한 시스템 관리 문제를 해결하고 있습니다. 각 문제를 해결하기 위해 채택한 모델들과 그 특징은 다음과 같습니다.
1. 실시간 이상 탐지
시스템의 정상적인 작동 범위를 학습하고 이를 벗어나는 데이터를 실시간으로 탐지하는 것이 주요 목표입니다.
- DBSLN(Dynamic Baseline): 통계 기반의 접근 방식으로, 요일별, 시간별 데이터를 바탕으로 정상 범위를 산출합니다. 이를 통해 급격한 값의 변화나 비정상적인 패턴을 실시간으로 탐지할 수 있습니다.
- 적용 사례: 특정 서비스의 평균 처리 시간을 기준으로 상‧하한선을 설정해 비정상 상태를 탐지.
- GDN(Graph Neural Network): 단순한 단변량 지표 데이터 이상 탐지는 서비스 이상 탐지와 같이 비교적 간단한 환경에서는 유효할 수 있지만, WAS나 DB 등 다양한 지표를 종합적으로 분석해야 하는 복잡한 시스템에서는 한계가 있습니다. 이러한 단변량 접근법은 과탐(over-detection) 문제를 유발할 가능성이 높아, 정확성과 신뢰성이 요구되는 환경에서는 적합하지 않을 수 있습니다. 이를 해결하기 위해, 여러 지표를 종합적으로 분석할 수 있는 모델을 도입하였습니다. 다변량 데이터를 활용해 각 지표 간의 상호 관계를 학습하며, 이러한 관계가 깨지는 시점을 탐지합니다. 특히, GDN(Graph Deviation Network)은 관계성 기반 이상 탐지 모델로, 시스템 내부의 복잡한 연관성과 종속성을 파악하는 데 강점을 가지고 있습니다. 이를 통해 단순한 이상 탐지뿐 아니라, 시스템 구성 요소 간의 비정상적인 상호작용을 효과적으로 탐지할 수 있습니다. GDN은 다변량 데이터를 활용해 탐지의 정확도를 높이고, 복잡한 시스템 환경에서도 신뢰성 있는 이상 탐지 결과를 제공함으로써 운영 안정성을 강화합니다.
- 적용 사례: WAS 서버의 CPU 사용량, TPS, 활성 트랜잭션 수 등의 관계를 기반으로 이상 상태를 탐지
2. 부하 예측
부하가 감지된 시점에서 이후 부하가 지속될 가능성을 과거 데이터를 학습하여 예측함으로써, 선제적으로 대응할 수 있는 능력을 갖추는 것이 핵심입니다. 이를 통해 단순히 현재 상태를 감지하는 것을 넘어, 부하가 지속되거나 심화되는 상황에 대한 사전 대응이 가능해집니다.
- Seq2Seq (Sequence-to-Sequence): Seq2Seq 모델은 과거 데이터를 기반으로 미래 1분에서 최대 30분까지의 부하를 예측하는 LSTM 기반 시계열 예측 모델로, 시간 순서에 따른 데이터 패턴을 효과적으로 학습하며 단일 시계열 데이터를 처리하기에 적합합니다. 이 모델은 움직임이보일 때 문제를 사전에 예방하고 적절한 자원을 할당하여 시스템 안정성을 유지하는 데 활용됩니다. 하지만 다변량 모델에 비해 상대적으로 높은 리소스를 점유합니다.
- TSMixer: Time Series Mixer라는 이름에 걸맞게 시간 축과 다양한 피처(변수) 간의 상호작용을 학습하여 미래 부하 상태를 예측하는 모델로, 다차원 데이터를 효율적으로 처리하며 각 피처 간의 상호 관계를 모델링해 예측 정확도를 높이는 데 강점을 갖습니다. Seq2Seq에 비해 복잡한 데이터 구조를 처리하는 데 유리하며, 다차원 데이터 처리 시에도 높은 효율성을 유지하여 학습 및 예측 속도가 향상됩니다. 대규모 시스템에서도 실시간 예측이 가능하다는 점이 주요 장점입니다.
- 적용 사례: tps가 부하가 감지 된 상황의 데이터를 입력으로 받아 미래 시점의 부하량을 예측(노랑선 점선이 예측 값)
3. 이슈 예측
시스템 내 주요 이슈가 발생했을 때, 해당 이슈가 지속될 가능성을 예측하고 이를 통해 장애를 예방하거나 운영 효율성을 높이는 것을 목표로 하고 있습니다. 이를 위해 위에 언급한 TSMixer를 활용하여 10~20분 후의 시스템 부하를 예측하며, 부하 예측 결과는 다변량 이상 탐지 모델(GDN)과 연계되어 예측된 부하 패턴을 이상 탐지에 활용하고 있습니다.
- 이슈 탐지는 단순 분류 방식이 아닌 이슈 매핑 방식을 채택하여, 시스템 지표 간 상호 연관성을 분석하고 각 지표별 기여도를 평가함으로써 특정 이벤트나 장애와의 상관성을 파악합니다. 주요 지표의 영향력을 기반으로 결과를 제공하며, 이러한 방식은 예측 정확도를 높이는 동시에 오탐률을 줄여 안정적인 시스템 운영을 지원합니다.
- 적용 사례: WAS 서버에서 발생한 트랜잭션 급증 이벤트가 지속될 가능성이 있는 시점(보라색 영역)들을 예측
4. 로그 이상 탐지
로그 데이터를 기반으로 한 시스템 이상 탐지 기능을 통해 운영의 신뢰성을 강화합니다.
- DiGCN (Dynamic Graph Convolutional Network): 로그 데이터를 그래프 형식으로 변환하여 이상 패턴을 학습하고 탐지합니다. 이 접근법은 기존의 단순 키워드 기반 탐지보다 정교하며, 복잡한 로그 시퀀스를 효과적으로 분석합니다.
- 적용 사례: 분당 이상탐지 빈도에 대한 시계열 그래프 및 상세 로그 메시지 정보 제공
- 적용 사례: 원본로그 메시지 중 이상탐지된 로그는 붉은 색으로 표시
- SparseLog: 추가로 희소 로그 모델을 통해 데이터를 탐지하여 신규 또는 비정상적인 로그를 식별 및 사용자가 정의한 키워드를 활용해 탐지의 정확도를 높일 수 있습니다.
- 적용 사례: 기존에 존재하지 않던 새로운 유형의 오류 메시지 식별
우리가 바라보는 미래
다양한 AI 모델 알고리즘의 활용은 단순한 데이터 분석을 넘어 시스템 운영의 자동화와 안정성을 향상시킵니다. 우리 팀은 이상 탐지 기술을 지속적으로 발전시켜 모델의 설명 가능성과 신뢰성을 높이고, 고객의 비즈니스 문제를 더욱 효율적으로 해결할 것입니다. 앞으로도 다양한 모델 알고리즘을 적극적으로 연구하고 활용하여, 더욱 정교한 AI 기반 솔루션을 제공하기 위해 노력하고 있습니다.
다음 섹션에서는 적합한 AI 모델 알고리즘을 선택하는 방안과 이를 실제로 적용한 성공 및 실패 사례를 바탕으로, 비즈니스 환경에서 효과적으로 활용할 수 있는 AI 솔루션의 구축 방안에 대해 다룰 것입니다. 특히, 적합하지 않은 모델을 선택하거나 데이터 특성을 고려하지 않아 성과를 내지 못했던 사례를 분석하고, 이를 통해 얻은 시사점 등을 통해 AI 프로젝트의 성공 가능성을 높이는 요소를 살펴보겠습니다.
[이미지 출처]
https://www.threads.net/@marilynika/post/C7mXRHnNe6v?hl=ko
글 | AI사업팀 나현석
'엑셈 경쟁력 > AI 모델링부터 LLM까지의 여정' 카테고리의 다른 글
Feature Engineering : 데이터 정제와 가공 (1) | 2024.10.31 |
---|---|
AI에서 데이터 분석의 중요성 (0) | 2024.08.29 |
인트로: AI 모델링, MLOps, LLM 활용 | AI 기술의 통합적 접근 (0) | 2024.06.27 |
댓글