데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 명료하고 정확하게 비즈니스 의사결정자들에게 전달하는 과정을 뜻한다.
데이터 시각화 도구로 태블로(Tableau) 퍼블릭을 이용하여 대시보드를 작성해보고 어떻게 하면 더 효율적으로 한눈에 파악할 수 있을지 연습하려고 한다 :)
태블로 퍼블릭은 온라인으로 무료로 이용할 수 있으며, 웬만한 비주얼리제이션을 할 수 있다.
서울 지하철 승객 데이터 원본 데이터를 활용하여 여러 주제로 데이터 시각화를 해보려고 한다.
1. 호선명별 총 승객수
시트를 통해 알 수 있는 점은 서울의 지하철 호선 중 승객들이 가장 많이 이용하는 호선은 2호선인 것으로 나타났다.
그 다음으론 7호선, 5호선,3호선 등으로 나타났다.
그래프를 보면 두번째로 많은 7호선 이용객 수의 거의 2배로 2호선 이용객 수가 압도적으로 많다는 것을 알 수 있다.
여기서 궁금한 점이 하나 생긴다. 왜 2호선을 이용하는 승객이 압도적으로 많을까?에 대해 의문점이 든다.
2. 요일별 총 승객수
시트를 통해 알 수 있는 점은 평일이 주말보다 이용객 수가 많다는 점이다. 또한 평일 중 화,수,목이 더 높게 나왔다.
나의 예상으론 화,수,목에 출퇴근을 하는 회사원의 수가 많기 때문이지 않을까 추측된다.
월,금은 연차를 내거나 재택근무를 하는 사람이 많은 것이 원인 중 하나이지 않을까?
3. 호선별 승객 수가 많은 역
필터 기능을 활용하여 각 호선별로 승객수가 가장 많은 역을 정리해보았다.
가장 많이 이용하던 2호선에서 승객수가 가장 많은 역은 신림,구로디지털단지,신도림 등등이였다.
두번째로 이용하던 7호선에선 학동,철산,청담,구로 순대로 승객이 많이 이용하였다.
필터 기능을 활용하여 보고싶은 지하철 호선을 선택하여 편리하게 볼 수 있다.
4. 12월 중 승객 수가 가장 많은 일자
12월 4일이 승객들이 지하철을 가장 많이 이용하였고, 12월 27일이 가장 적게 이용하였다.
승객이 가장 많은 날과 가장 적은 날은 3~4배 가까이나 차이나는 것을 알 수 있다.
이는 평일에 비해 주말 이용객이 3~4배 적다는 것을 알 수 있다.
또한 월초에 비해 월말의 이용객이 조금 감소했다는 것을 알 수 있다.
'데이터 분석 > Data visualization' 카테고리의 다른 글
python_visualizantion_day03 (0) | 2023.10.04 |
---|---|
python_visualization_day01,02 (0) | 2023.10.04 |