본문 바로가기
KNIME | KNIME을 활용한 텍스트 분석 이번 Part에서는 KNIME으로 텍스트 분석에 대해 알아보려고 해요! Part. 1 KNIME이라고 들어봤어요? (링크) Part. 2 데이터 처리는 알겠는데 전처리는 뭐예요? (링크) Part. 3 잘 안 보이니까 시각화 해주세요! (링크) Part. 4 KNIME을 활용한 이미지 분석 (링크) Part. 5 KNIME을 활용한 텍스트 분석 Q1. 텍스트 분석이라는 것이 무엇인가요? A1. 비정형 텍스트 데이터를 통해 인사이트를 도출하기 위한 분석작업이에요. 특정 상품의 리뷰를 분석할 수 있고, 문서의 카테고리를 분류할 수 있어요. 또한, ChatGPT같은 AI 챗봇도 텍스트 분석의 한 종류예요. 워드클라우드 기사 분류 Q2. 텍스트 분석은 어떤식으로 진행이 되나요?? A2. 텍스트 분석도 앞서 다루.. 2023. 6. 29.
Chapter 2-3. 기초 시계열 분석 Chapter 2-3. 기초 시계열 분석 이번 장에서는 시계열 분석에서 자주 나오는 용어 및 알아야 할 개념들을 간단하게 정리해보고자 한다. 확률과정(Stochastic Process) 확률과정은 확률변수들의 수열이다. 즉, {Y(t), t = 0, ±1, ±2, ...} 형태로 나타낼 수 있으며, 시계열 데이터를 이해하려면 Y(t) 들의 결합 확률 분포를 분석해야 한다. 왜냐하면, 일반적인 시계열 데이터는 독립이 아니기 때문에, 결합 확률 분포를 각 확률 변수의 분포들로 분해할 수 없기 때문이다. 하지만, 평균과 분산을 분석하면 결합 확률 분포의 많은 부분을 이해할 수 있다. 평균, 분산, 공분산, 상관계수 앞서 Chapter 1. 기초 선형대수 및 통계학에서 간단하게 소개한 개념들을 수식으로 알아보자.. 2022. 10. 26.
Chapter 2-2. 시계열 데이터 전처리 Chapter 2-2. 시계열 데이터 전처리 앞서 Chapter 2에서는 numpy와 pandas를 이용하여 데이터 구조를 변형하는 방법에 대하여 알아보았다. 이번 챕터에서는 pandas에서 제공하는 시계열 도구와 가장 널리 쓰이는 타임스탬프(timestamp)라는 구조를 사용하여 설명할 것이다. 먼저, Datetime이라는 파이썬 라이브러리에서 제공하는 datetime을 사용하여 현재 날짜 및 시간을 알아보고, timedelta를 사용하여 시간적 차이를 표현해보자. In [1]: from datetime import datetime now = datetime.now() now Out[1]: datetime.datetime(2022, 5, 20, 11, 42, 5, 90657) Timedelta를 이용하.. 2022. 9. 28.
KNIME | KNIME이라고 들어봤어요? 코딩 없이도 데이터 분석을 할 수 있다 NOW 엑셈 뉴스레터를 통해 데이터 분석 플랫폼인 ‘KNIME’에 대해서 설명을 드리려고 해요. 총 5 Part로 나누어 진행되니 기대해주세요! Part.1 KNIME Q1. KNIME이 무엇인가요? A1. 질문에 답하기 전에 데이터 분석을 먼저 알아볼까 해요. 데이터 분석이란, 원시데이터를 가공해 의미있는 데이터를 만들고 의사 결정에 도움이 되는 정보를 이끌어내는 것을 뜻해요. 원시데이터는 여러가지가 될 수 있어요! 키, 댐 수위 변화, 평점, 성별, 나이, 뉴스기사, 음성, 사진(각각 연속형, 시계열, 이산형, 이진데이터, 문자열, 소리, 이미지 데이터) 등을 예로 들 수 있겠네요. 이러한 원시데이터를 사람이 직접 톺아보며 유의미한 정보를 찾기에는 매우 번잡하고.. 2022. 9. 27.
데이터브릭 | 데이터 전처리 솔루션 TRIFACTA 지난 10월, 엑셈은 데이터브릭과 인공지능/빅데이터 부문 사업 제휴를 맺었습니다. 관련 기사 보기사업 제휴를 통해 엑셈의 빅데이터 역량과 인공지능 기술력에 데이터브릭의 데이터 전처리 전문성을 더함으로써 데이터 산업 분야에서 폭넓은 사업 기회를 창출할 수 있는 계기가 될 것으로 기대하였는데요, 그래서 이번 시간에는 데이터브릭이 가지고 있는 데이터 전처리 솔루션 “TRIFACTA”에 대해서 알아보겠습니다 :) 지난 11월 08일 개최된 2018 Claudera day in Seoul에서 데이터브릭의 세션 발표가 있었습니다. 트리팩타에 대하여 발표 하였는데, 많은 분들이 참석해주셨고 관심을 보여주셨습니다. 트리팩타는 분석, 머신러닝 및 AI 업무에서 반드시 필요하면서도 이들 프로젝트 기간의 80% 이상이 소요.. 2018. 11. 5.