본문 바로가기
DB 인사이드 | PostgreSQL Vacuum - Monitoring : XMIN’s Horizon Vacuum Series를 통한 Vacuum 동작원리에 이어 이번에는 Monitoring 시 주의해야 할 사항에 대해 이야기해 보도록 하겠습니다. PostgreSQL에 익숙하지 않은 사용자의 경우 Vacuum의 중요성만 인지할 뿐, 단순히 Autovacuum을 Enable 시키거나 Job(Cron)을 통한 Manual Vacuum을 수행하는 것으로 필요한 처방을 다 했다고 생각하곤 합니다. 하지만, MVCC 모델에서 파생된 복잡/다양한 메커니즘은 비단 [Auto]vacuum Operation뿐만 아니라 일반적인 Database 운영 과정까지 지대한 영향을 끼칩니다. 본 문서에서는 그중 idle in transaction상태의 Session이 Vacuum Operation과 맞물렸을 때 발생하는 상황에 대.. 2023. 1. 19.
Chapter 3-2. 모델 훈련 Chapter 3-2. 모델 훈련 머신러닝 모델을 블랙박스로 취급하여도 모델을 훈련시키는 것은 가능하다. 하지만 훈련이 이루어지는 원리를 이해한다면 적절한 기법을 선택하여 훈련시간은 단축시키거나 모델의 성능을 높이는 것이 가능하다. 이번 장에서는 Chapter 3. 머신러닝에서 소개한 학습률, 비용 함수 등에 이어서 모델훈련에 필요한 몇 가지 개념을 다룬다. 경사 하강법 이전 장에서 언급한 것과 같이 비용 함수(Cost function)는 입력 데이터에 대한 오차를 계산하는 함수이다. 머신러닝에서는 오차를 줄이기 위해 다양한 최적화 알고리즘이 이용된다. 그 중에서 경사 하강법(Gradient Descent)은 가장 일반적인 최적화 알고리즘이다. 그림과 같이 비용 함수가 주어진 경우 경사 하강법은 파라미터.. 2023. 1. 19.
DB 인사이드 | PostgreSQL Setup - Migration & Upgrade 성능 및 주의사항 ※ 목차 ※ 업그레이드 주의사항 Role & Tablespace Extension 업그레이드 성능 Backup 성능 Restore 성능 pg_upgrade 성능 필요 Disk 여유공간 정리 Data 검증 Object 개수 확인 Procedure 개수 확인 Trigger 개수 확인 Sequence Last Value 확인 PostgreSQL의 신규 기능들을 사용하기 위해서, 혹은 EOL 등의 이유로 PostgreSQL Major 업그레이드를 고려할 수 있습니다. PostgreSQL Major 업그레이드하는 방법은 여러 가지가 존재하며 어떠한 업그레이드 방법을 사용할지, Database 다운타임을 최소한으로 줄일 수 있는 방법은 무엇인지 등에 대한 충분한 검증이 필요할 것입니다. 본 문서에서는 앞서 소개한 .. 2022. 11. 23.
Chapter 3. 머신러닝 Chapter 3. 머신러닝 머신러닝의 정의와 활용 머신러닝이란 무엇인가? 머신러닝(Machine Learning)은 인공지능(Artificial Intelligence)의 한 부분으로, 입력된 데이터로부터 컴퓨터가 학습하도록 프로그래밍하는 것을 말한다. 이 챕터에서는 머신러닝을 분류하는 두 가지의 방법에 대해 알아볼 것이다. * 머신러닝을 분류하는 첫 번째 방법: 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 지도 학습(Supervised Learning)은 훈련 데이터에 레이블(정답)이 있는 학습 방법이며, 대표적으로 K-nearest neighbors(K-최근접 이웃), Linear regression(선형 회귀), Logistic regression(로지스틱 회귀), Support vecto.. 2022. 11. 23.
KNIME | 데이터 처리는 알겠는데 전처리는 뭐예요? Part. 1에서는 KNIME에 대해 간략하게 설명해 드렸어요! 이번 시간에는 데이터 분석의 첫 단계인 데이터 전처리에 대해 말씀드릴게요. Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 전처리 Q1. 데이터도 알겠고, 처리도 알겠는데, 전처리는 뭔가요? A1. 전처리라는 용어는 말 그대로 ‘전’ + ‘처리’, 작업을 하기 전 원재료를 가공하는 것을 말해요. 영어로는 ‘preprocessing’ 이라고 하죠! 예를 들면, 데이터의 형태를 통일시켜야 할 때가 있어요! 왼쪽 생년월일을 보면 여러 형식으로 저장되어 있어요! 모든 방식이 날짜를 뜻하지만, 숫자의 길이도 다르고 숫자 사이를 구분하는 문자(‘-‘ 나 ‘/’)도 다르죠? 보기에도 힘들고, 컴퓨터조차 날짜로 인식하지 못해요. .. 2022. 11. 23.
Chapter 2-3. 기초 시계열 분석 Chapter 2-3. 기초 시계열 분석 이번 장에서는 시계열 분석에서 자주 나오는 용어 및 알아야 할 개념들을 간단하게 정리해보고자 한다. 확률과정(Stochastic Process) 확률과정은 확률변수들의 수열이다. 즉, {Y(t), t = 0, ±1, ±2, ...} 형태로 나타낼 수 있으며, 시계열 데이터를 이해하려면 Y(t) 들의 결합 확률 분포를 분석해야 한다. 왜냐하면, 일반적인 시계열 데이터는 독립이 아니기 때문에, 결합 확률 분포를 각 확률 변수의 분포들로 분해할 수 없기 때문이다. 하지만, 평균과 분산을 분석하면 결합 확률 분포의 많은 부분을 이해할 수 있다. 평균, 분산, 공분산, 상관계수 앞서 Chapter 1. 기초 선형대수 및 통계학에서 간단하게 소개한 개념들을 수식으로 알아보자.. 2022. 10. 26.
Trend Report | 2022 옵저버빌리티 전망(Observability Forecast) 5분 요약 자~ 오늘 5분 OT(Observability Talk)에 오신 여러분, 진심으로 환영합니다. 자유롭게 앉아주시고요~ 그럼 지금부터 딱 5분 동안 제가 요즘 흥미 있게 살펴봤던 두 가지 보고서 내용을 요약해드릴 테니까 집중하세요~ 오늘 살펴볼 두 개의 보고서의 출처 및 개요 2022 옵저버빌리티 현황 보고서(splunk) 설문 참여자: 1,250명 이상의 옵저버빌리티 분야 실무자, 관리자 및 전문가 참여 대상국: 호주, 캐나다, 프랑스, 독일, 인도, 일본, 뉴질랜드, 싱가포르, 영국, 미국 등 11개 국가 옵저버빌리티 분야라고 하면, 본인의 업무 시간의 절반 이상을 옵저버빌리티 관련 업무에 활용하고 있다는 뜻. 2022 옵저버빌리티 전망 보고서(New Relic) 설문 참여자: 1,614명(경영진 및 .. 2022. 10. 26.
이.빅.스 l 이만큼 재미있는 빅데이터 스토리, 시작! 처음 뵙겠습니다, EBIGs 인사드립니다! 🙏🏻 이번달 부터 격월로 엑셈의 빅데이터 플랫폼인 EBIGs를 통해 빅데이터의 활용과 전처리, 시각화 등에 대해서 소개하려고 합니다. 가장 첫 시작은, 역시 자기소개를 드려야겠죠? EBIGs의 아키텍처와 주요기능에 대해 먼저 이야기해볼까 합니다. 기존에 널리 사용되었던 HDP, CDH가 합병 및 전면 유료화를 선언하면서 많은 부담을 느낀 기업들이 차츰 Apache Hadoop의 도입을 고민하게 되었죠. EBIGs는 이에 맞추어 비즈니스에 효율적으로 적용시킬 수 있는 Hadoop Eco System으로 구성하였으며, Hadoop Eco System의 운영관리, 보안 설정, 사용자 관리, 성능 모니터링 등의 다양한 기능을 제공하고 있답니다. 위 그림과 같이, EBI.. 2022. 10. 26.
DB 인사이드 | PostgreSQL Setup - Major Upgrade ※ 목차 ※ Major Upgrade Test Data Major Upgrade Using pg_dumpall Major Upgrade Using pg_dump Major Upgrade Using pg_upgrade Major Upgrade Using pg_upgrade Link Option Major Upgrade Using pg_upgradecluster(Only Debian계열) PostgreSQL의 신규 기능들을 사용하기 위해서, 혹은 EOL 등의 이유로 PostgreSQL 업그레이드를 고려할 수 있습니다. Major버전 업그레이드의 경우 시스템 테이블과 Data 파일의 내부 아키텍처의 변화에 따라 버전 간의 호환성이 유지되지 않기 때문에 pg_dump, pg_restore, pg_upgrade .. 2022. 9. 28.