본문 바로가기
궁금하면 드루와요 | Apache Druid란 아파치 드루이드는 대규모 데이터를 분석, 저장할 수 있는 도구입니다. 저희는 k8s 환경에서 드루이드를 운영하고 있으며, 카프카를 연계해 데이터를 수집하고 있습니다. 직접 운영하며 사용한 방법과 수집 구조, 한정된 자원 속에서 수집 성능을 개선한 경험에 대해 이야기를 나누고자 합니다. k8s 환경에서 드루이드를 운영하는 사람, 또 운영하고자 하는 사람, 드루이드에서 Kafka로부터 데이터 수집 성능을 개선하려는 사람들과 함께 소통하고 싶습니다. 총 5파트로 나누어, 이번달에는 아파치 드루이드의 기본 개념을 알아보겠습니다. Part.1 Apache Druid란? Part.2 Druid Operator: 드루이드 오퍼레이터 도입으로 드루이드 설치부터 관리까지의 과정 개선 Part.3 Druid Tuning:.. 2023. 9. 21.
데이터세이커는 계속 진행중 [설문 이벤트] 잘 지내셨어요? 휴가는 다녀오셨구요? 데이터세이커는 잘 있습니다. IT 풀스택 모니터링 SaaS 솔루션 '데이터세이커'만 있었다면, 휴가지에서 예상치 못한 장애가 발생할지 몰라 진동으로 해놓은 문자나 벨이 울릴 때마다 초조해하거나, 손에서 핸드폰을 놓지 못하고 계속 들여다보지는 않으셔도 됐었을 텐데요. 내가 예상할 수 없는 불안한 상황에 전전긍긍해 하지 마시고, 나 대신 일할 든든한 보초병을 한 명 세워두시면 어떠세요? 한 명이 아닌 열 명 이상의 몫을 해낼겁니다. 데이터세이커가요! (참고로 외국인 친구는 아님) 다시 찾을 휴가지에서, 곧 다가올 명절에 다리 쭉 펴고 자고 싶으신 IT 운영자님들, 데이터세이커가 어떤 솔루션인지 궁금하다면 이번 기회에 무료로 이용해 보세요. 설치가 어렵다면 지원도 가능하구.. 2023. 8. 31.
Chapter 4. 신경망과 딥러닝 Chapter 4. 신경망과 딥러닝 앞서 Chapter 3에서 머신 러닝이 무엇인지 살펴보았다. 이번 챕터에서는 딥 러닝의 정의가 무엇인지에서 시작하여 딥 러닝에 대해 심층적으로 알아보고자 한다. 딥 러닝이란 무엇인가? 딥 러닝은 머신 러닝에 포함된 하위 개념으로 머신 러닝이 알고리즘을 이용해서 데이터를 분석하고, 분석을 통해 학습하여 그것을 기반으로 하여 판단이나 예측을 하는 것인 반면 딥 러닝은 더 나아가 컴퓨터가 사람처럼 인식하고 학습할 수 있는 것을 말한다. 이러한 딥 러닝 알고리즘은 XAIOps의 장단기 부하예측에서 사용하고 있다. 딥 러닝이 무엇인가 알기 위해서는 인공 신경망을 먼저 알아야한다. 인공 신경망은 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신 러닝 모델이다. 뉴런의 구조.. 2023. 8. 31.
DB 인사이드 | PostgreSQL HOT - 3. Fillfactor와 HOT Update 시작하며본 문서에서는 HOT Update와 Single-page Vacuuming의 효과를 확인하기 위한 테스트를 진행합니다.테스트 결과를 통해 Fillfactor 설정에 따라 어떤 차이가 있는지 확인해 보겠습니다.📢 HOT Update, Single-page Vacuuming, Fillfactor에 대한 개념은 해당 시리즈의 1. Page와 관리 글에 설명되어 있으니 참고하시기 바랍니다. TEST 환경 구성설정1만 건의 데이터를 가지고 있는 테이블 생성 (autovacuum_enabled=false)100만 건의 Row Update 수행수행 완료 후, 결과 확인Fillfactor값을 100→75→50→30으로 변경하며 동일 과정 반복 참고 Script 1) 테스트 데이터 생성## TEST Table .. 2023. 8. 31.
이.빅.스. | Flamingo의 오픈소스 안녕하세요. 이.빅.스 시리즈 여섯 번째 시간이자 마지막 시간입니다. 이번 편에서는 이.빅.스의 모니터링과 서비스 운영, 관리의 역할을 하고 있는 플라밍고에 사용된 오픈소스들을 소개하고자 합니다. 개발자 생태계에는 수많은 오픈소스가 존재합니다. 폐쇄적으로 개발해오던 예전과 달리 기업이나 개발자 개개인들이 자신의 프로젝트를 공개하고, 최신 기술 정보와 문제점을 공유함으로써 더 나은 개발 환경을 만들어 나가고 있습니다. 공개된 오픈 소스를 사용함으로써 새 소프트웨어를 개발하는데 드는 비용을 절감하고 검증된 소스를 통해 안정성 있는 서비스를 제공할 수 있는 환경이 되었습니다. 플라밍고 역시 수많은 오픈소스 라이브러리를 활용해 개발되었습니다. Vue.js 플라밍고는 프론트엔드 프레임워크로 Vue.js를 사용하고.. 2023. 8. 31.
DB 인사이드 | PostgreSQL Replication - Slot Replication Slot 탄생PostgreSQL에서 안정적인 Replication 유지를 위한 WAL 파일의 관리는 항상 어려운 문제였습니다. Standby Server의 연결이 끊어진 상태에서 Main Server의 WAL 파일이 재사용(Overwrite) 되면 Replication 상태를 유지할 수 없으므로 다음과 같은 에러를 마주하게 됩니다.LOG: started streaming WAL from primary at 0/3000000 on timeline 1FATAL: could not receive data from WAL stream: ERROR: requested WAL segment 000000010000000000000003 has already been removed그리고 이러.. 2023. 7. 26.
DB 인사이드 | PostgreSQL Replication - Parameter 이번 문서에서는 PostgreSQL Replication과 관련된 Parameter에 대해 알아보겠습니다.아래 그림을 통해서 Replication 종류에 따라 설정이 필요한 Parameter를 확인할 수 있습니다. 각 Parameter에 대한 설명은 Replication Parameter에 알파벳 순서로 설명되어 있습니다.Replication Parameterarchive_cleanup_commandStandby Server에서 더 이상 필요하지 않은 아카이브 WAL 파일을 정리하기 위해 사용됩니다. 보통 WAL 파일 정리를 쉽게 하기 위해 pg_archivecleanup Application을 주로 사용합니다. archive_cleanup_command = 'pg_archivecleanup /Postg.. 2023. 7. 26.
Chapter 3-8. 비지도 학습 Chapter 3-8. 비지도 학습 대부분의 흔히 알고있는 머신러닝 알고리즘은 지도 학습 기반의 알고리즘입니다. 이는 이전 챕터들에서도 소개되었지만, 데이터에 정답(레이블)이 알고 있는 상태로 학습을 하는 방식입니다. 본 챕터에서는 지도 학습과 상반되는 비지도 학습이 무엇이며, 왜 필요한지 그리고 어떤 문제에 적용하여 사용할 수 있는지에 대해 알아보겠습니다. 현실 세계에서 우리가 다룰수 있는 대부분의 데이터들은 정답(레이블)이 없는 데이터입니다. 그렇다면 어떻게 대부분의 지도 학습에 적용될 수 있었을까요? 이는 사람이 직접 데이터에서 라벨링 처리 과정을 수행했기 때문입니다. 이는 굉장히 비효율적이고 사람이 직접 수행하다보니 실수도 발생할 수 있고 또 많은 비용들이 발생하게 됩니다. 그렇기때문에 라벨링 처.. 2023. 7. 26.
이.빅.스 | 빅데이터 가치를 위한 데이터 시각화 안녕하세요. 이.빅.스 시리즈 어느덧 다섯 번째 시간입니다. 이번 편에서는 데이터 시각화에 대해 알아보겠습니다. 빅데이터를 시각화하기 위한 여러가지의 방법들이 있습니다. 먼저, 데이터 유형에 따라서 차트를 선택하고 목적에 맞게 시각화를 해야합니다. 위 그림과 같이 앤드루 아벨라가 고안한 목적에 따른 차트 선택 방법에는, 비교를 위한 차트는 막대 차트와 선 차트를 사용하며, 전체 데이터 중 특정 항목이 차지하는 비중을 보기 위한 구성을 위한 차트는 파이 차트, 시간에 따른 변화의 유무는 세로 칼럼 차트와 가로 칼럼 차트로 구분하여 사용할 수 있습니다. 위 지표는 엑셈에서 프로젝트를 수행한 서울시 인공지능 기반 빅데이터 서비스 플랫폼(2단계)에서 데이터를 시각화한 화면입니다. 데이터 타입에 맞게 유형별로 시.. 2023. 7. 25.