🧐 시작하며

Untitled

공부, 답이 없는 길에 대해 데이터를 파헤쳐보다

전세계를 통틀어서 모든 부모의 염원은 내 자식이 잘 되는 것이고, 학창 시절에 더 나은 성적을 내는 것이 그나마 상대적으로 덜 고생하는 길이라는 걸 알기에 열심히 쏟아내는 부모의 잔소리와 당장 공부가 불러오는 가치가 눈 앞에 보이지 않는 아이들의 반발이 매 순간마다 충돌한다. 그런 갈등에 대한 솔루션을 제공할 것은 아니지만, 적어도 ‘데이터 하는 사람’으로서 그러한 충돌의 순간에 쏟아져 나오는 고함들, 즉 “니가 그렇게 친구들이랑 놀러 다니니까 성적이 안 나오지!”라는 분노라든가, “나도 어떻게 공부해야할지 잘 모르겠어요” 혹은 “엄마가 학원 안 보내 주니까 내가 성적이 안 나오는 거잖아요” 라는 철 없는 반박들의 정합성에 대해서 따져볼 수 있다면 참 좋지 않을까?

요즘 핫한 ChatGPT는 이 답 없는 질문에 대해서 뭐라고 대답할까? 한 번 직접 물어보자.

한글로 물어보았는데 영어로 대답해주는 인터내셔널한 ChatGPT

한글로 물어보았는데 영어로 대답해주는 인터내셔널한 ChatGPT

다 아는 뻔한 이야기를 열심히 하는 ChatGPT

다 아는 뻔한 이야기를 열심히 하는 ChatGPT

대답을 보면 알겠지만 상당히 뻔한 이야기를 한다. ChatGPT가 아무리 성능이 좋다고 해도, 그 핵심은 인터넷에 있는 것을 ‘잘 요약해서 최대한 그럴싸한 답을 해주는’ 기능을 수행하는 것이다. 그런데 여기에는 출처도 없고 근거도 마땅치 않다. 따라서 ‘숨겨져 있는 답’들에는 결국에는 직접 데이터를 파고 들어 정량적 근거를 찾는 수 밖에는 없다.

오늘 분석의 주제가 된 데이터는 그런 질문들에 대해 대답해보기 위해 포르투갈의 두 연구자, P. Cortez와 A. Silva가 2008년에 작성한 논문 <Using Data Mining to Predict Secondary School Student Performance(데이터 마이닝을 활용하여 고등학교 학생의 성적 예측하기)>에 활용한 분석 데이터다. 포르투갈의 두 고등학교 Gabriel Pereira와 Mousinho da Silveira의 학생들 649명(적지 않은 표본)을 대상으로 성적과 가정 환경, 교육 수준 및 시험 성적을 집계했다.

한국이 아니다보니 국내의 상황에 그대로 적용할 수는 없지만(대한민국만큼 학구열 강한 곳이 많지 않기에), 사람 사는 것 다 엇비슷하니 학생들이나 부모들이나 대동소이하지 않을까. 여하튼, 적어도 포르투갈에서는 어떤 친구들이 더 공부를 잘 했는지, 그리고 선입견으로 대부분 가지고 있는 질문들이 실제로 그러한지에 대해서 데이터에 물어 보자.

(참고로 데이터를 직접 다운로드할 수 있는 UCI Machine Learning Repository에는 데이터 분석/모델링을 연습해볼 수 있는 좋은 데이터셋들이 많이 존재하니 관심이 있다면 확인해보자)


<aside> 🤭 참고로, 이번 분석은 페이스북에서 광고를 통해 우연찮게 알게 된 하트카운트라는 국산 데이터 분석 툴을 통해 진행했다.

데이터 분석을 하다 보면 어쩔 수 없이 고객에게 공유하기 위해서든 내가 이해하기 위해서든 차트를 많이 그려봐야 하는데, 코딩 없이 클릭 몇 번만으로(혹은 간단한 질의 방식으로) 차트를 그릴 수 있는게 참 편했다. 게다가 자동 분석 기능이 아닌 시각화 기능만 사용할 시 비용을 전혀 부담하지 않아도 되었다…!

(+ 혹시 EDA를 처음 접하는 사람들이 있다면, 회사에서 관련한 내용들에 대해 블로그와 커뮤니티도 운영하는 것 같으니 참고해보자.

재미있게 읽은 EDA 관련 글 https://support.heartcount.io/blog/10

커뮤니티 페이지: https://support.heartcount.io/community/learning )

</aside>


🔎 탐험적 데이터 분석 (Exploratory Data Analysis)