이번 Part에서는 KNIME으로 데이터를 활용하는 방법 중 하나인 데이터 시각화를 알아보고자 해요!
데이터 시각화는 데이터를 그래프, 차트 등과 같이 시각적 요소를 활용해 나타내는 것을 뜻해요. 시각화를 통해 한 눈에 파악하기 어려운 정보를 보다 쉽게 이해할 수 있고, 데이터를 기반으로 실행 가능한 인사이트를 도출할 수 있어요.
Part. 1 KNIME이라고 들어봤어요? (링크)
Part. 2 데이터 처리는 알겠는데 전처리는 뭐예요? (링크)
Part. 3 잘 안 보이니까 시각화 해주세요!
Q1. 시각화라면 막대그래프, 선그래프 이런 것을 말하나요??
A1.
네! 맞아요! 질문처럼 아주 간단한 그래프부터 복잡한 그래프까지 아주 다양하게 있어요!
아래의 이미지를 참고해주세요! 최상단의 행부터 각각 Distribution, Correlation, Ranking, Part Of A Whole, Evolution, Map, Flow, General Knowledge 등의 시각화 예시들이에요.
Q2. 시각화가 데이터 분석이랑 어떤 연관이 있나요!?
A2.
시각화를 통해서 보이지 않는 정보들을 쉽게 찾아낼 수 있어요!!
아래의 이미지는 타이타닉호 탑승자에 대한 정보에요. 891명의 데이터가 있어요. feature들에 대한 정보는 각각 아래와 같아요.
Survived : 승객 수
Pclass : 객실 등급
Sex : 성별
Age : 나이
Sibsp : 함께 탑승한 형제 또는 가족 수
Parch : 함께 탑승한 부모 또는 자녀 수
Fare : 승객 요금
Embarked : 탑승위치 ( C = 셰르부르, Q = 퀸즈타운, S = 사우스햄프턴)
위의 세 가지의 막대 그래프만 보아도, 여성보다는 남성이, 1, 2등급 객실보다는 3등급 객실에서 사망자가 많이 나왔다는 것을 알 수 있어요. 다른 feature들로도 시각화를 하게 된다면 더 다양한 해석이 나오게 될 것 같아요! 위의 csv 파일처럼 숫자와 문자만 나열되어 있는 데이터보다 시각화를 하니 어느곳에 데이터가 치중되어 있는지, 어떤 경향이 있는지 알아보기가 쉽죠?! 이게 바로 시각화를 하는 이유라고 볼 수 있어요!
시각화만 하면 인사이트를 이끌어낼 수 있고, 도출한 인사이트가 항상 옳을까요?? 제 생각은 아니라고 생각해요! 아래를 참고해주세요!
다음은 데이터 분석을 할 때 주의해야 하는 심슨의 역설에 대해서도 설명드릴게요!
Simpson's Paradox
위의 데이터는 책 표지, 책의 장 수, 그리고 책의 가격에 대한 테이블이에요. 이 테이블을 시각화시켜볼게요!
아래의 [그림 1]의 좌측은 데이터를 나누지 않고 데이터 전체의 추세를 볼 수 있고, 우측은 ‘book_type’으로 나누어 추세를 확인한 결과에요!
아무런 조건 없이 모든 데이터를 이용해 그래프를 그렸을 때에는 데이터들이 책의 장 수가 많아지면 가격이 내려가는 음의 상관관계를 보이고 있네요. 하지만, 책 표지로 나누어 확인하니 각각 양의 상관관계가 있다는 것을 알 수 있어요!! 이처럼 전체 데이터를 한번에 보았을 경우의 경향성과 그룹별로 나누어 보았을 때 반대의 경향성을 보이거나 추세가 사라지게 되는 것을 심슨의 역설이라고 해요! 이처럼 데이터 시각화를 하면, 보이지 않는 정보들을 찾아낼 수 있어요!
Q3. 일상에서도 이런 시각화들이 쓰이나요??
A3.
네! 그럼요!! 기상 정보, 주식 그래프, 티켓 예매 현황 등등 우리 생활 속에는 너무나 많은 시각화 된 데이터들이 녹아있어요!
KNIME에서 구현할 수 있는 차트는 KNIME에서 자체적으로 제공하는 차트 뿐만 아니라, 확장 기능 설치를 통해서도 다양한 차트를 구현할 수 있어요!
마지막으로 대시보드를 통해서도 시각화를 살펴볼 수 있어요!
여기까지 KNIME으로 데이터 시각화를 간략하게 알아봤어요. 다음 편에서는 이미지 분석에 대한 컨텐츠로 찾아올게요!
궁금하거나 자세하게 알고 싶은 내용은 OWLEYE(링크)를 통해 문의하시면 더욱 자세히 말씀드릴게요.
* 이미지 출처:
- https://www.python-graph-gallery.com/
- https://www.kaggle.com/competitions/titanic/data?select=train.csv
- https://www.knime.com/knime-software/knime-webportal
글 | 빅데이터 분석팀 김지호, 신혜지
'엑셈 경쟁력 > Knock, Knock! KNIME' 카테고리의 다른 글
KNIME | KNIME을 활용한 텍스트 분석 (0) | 2023.06.29 |
---|---|
KNIME | KNIME을 활용한 이미지 분석 (0) | 2023.04.27 |
KNIME | 데이터 처리는 알겠는데 전처리는 뭐예요? (0) | 2022.11.23 |
KNIME | KNIME이라고 들어봤어요? (0) | 2022.09.27 |
댓글