최근 회사 업무 트렌드가 데이터를 활용한 보고서 작성일 겁니다. 이슈 발생 시에도 데이터를 분석에 해결책을 찾아야 합니다. 이를 위한 파이썬 독학 방식에 대해 알아보겠습니다.

파이썬 교재를 활용?

무언가를 공부할 때 일반적으로 책을 사서 보게 됩니다. 파이썬 관련 서적은 인터넷에서 쉽게 구입할 수 있고 그 양도 엄청나게 많습니다.

프로그래밍 언어를 아예 모를 경우 ‘파이썬 코딩 도장’과 같은 기초 문법을 설명하는 책이 유용할 수 있습니다.

과거 학교에서나 취미 생활로 조금의 코딩을 한 분들에게는 이러한 책들보다 데이터 사이언스와 같은 책들을 보시는 것을 추천드립니다.

요즘은 인터넷에 많은 정보들이 올라오기 때문에 유투브나 블로그의 내용으로도 충분히 공부하는데 도움이 될 수 있습니다.

제가 처음 파이썬 입문 시 공부했던 ‘점프 투 파이썬’은 무료로 강좌를 제공하고 있으니 참고하시기 바랍니다.

데이터 분석을 위한 공부 순서

데이터를 분석 할 때 회사에서는 보통 엑셀을 많이 이용하게 됩니다. 간단하게 전처리도 할 수 있고 그래프를 나타낼 수도 있습니다.

데이터 분석에서 파이썬을 굳이 이용하려는 이유는 파이썬이 갖고 있는 수 많은 라이브러이들 때문입니다. 이 기능들을 이용해 보다 심도 깊은 분석 및 인사이트를 찾을 수 있습니다.

파이썬으로 데이터를 분석할 때 기본적인 순서는 다음과 같습니다. 사람마다 다를 수 있으니 참고만 하세요.

데이터 불러오기 – 전처리 – 관계 분석 – 가시화

회사에서 데이터 분석에 대해 교육할 때 위의 순서에 맞게 과정을 진행합니다. 각 단계에서 필요한 라이브러리의 활용에 대한 공부가 필요합니다.

데이터 불러오기 – Pandas

데이터를 분석하려면 데이터를 입력해야 합니다. 일반적으로 엑셀 파일(csv or xlsx)로 존재하는 데이터를 파이썬 프로그램에 입력하게 됩니다. 이를 위해 파이썬의 ‘pandas’ 라이브러리를 사용하게 됩니다.

Pandas를 이용한 엑셀 파일 다루는 방법에 대해서는 아래 링크를 통해 확인할 수 있습니다.

데이터 전처리 – Pandas, Numpy, Scipy

Pandas를 이용해 데이터를 불러오게 되면 일반적으로 DataFrame 타입의 데이터 형태를 갖추게 됩니다. 많은 양의 데이터를 처리하기에 유용합니다.

Pandas 공식 매뉴얼이 약 3,700 페이지로 구성되어 있을 정도로 판다스에는 많은 기능들을 있습니다.

회사에서 주로 사용하는 기능은 몇 개 안 되기 때문에 판다스를 익히는데는 그리 오래 걸리지 않을 겁니다. 이 블로그에서 소개하는 내용만으로 충분히 판다스를 다룰 수 있습니다.

Numpy는 배열(백터) 형태의 데이터를 다루게 됩니다. 주요 장점으로 배열을 자동으로 확장하여 큰 배열과 호환되도록 하는 브로드캐스팅(broadcasting) 기능이 있습니다.

판다스나 넘파이 외에도 scipy와 scikit-learn과 같이 고급 기능으로 전처리 및 데이터 처리를 할 수 있는 라이브러리도 있습니다. 처음에는 판다스와 넘파이만 집중해서 공부해도 충분히 데이터 처리에 도움이 됩니다.

데이터 관계 분석 – Pandas(correlation)

데이터 분석이란 조건값(x)와 결과값(y)의 관계를 살피는 것이라 할 수 있습니다. 어떠한 조건들이 결과에 어떤 영향을 미치는지 확인하는 겁니다.

이러한 분석을 위해서 전처리를 잘 해야 합니다. 데이터들이 항상 세트로 구성되어 있지 않기 때문입니다.

예를 들어 설비 운영을 위한 세팅 데이터와 결과를 나타내는 검사 데이터는 같은 시계열에 있지 않습니다. 이럴 경우 데이터 시프트를 전처리에서 수행해 x인자와 y인자를 잘 엮어야 합니다.

x인자와 y인자가 잘 엮여 세트를 구성하게 되면 상관관계 분석을 통해 y에 영향을 미치는 x인자를 찾아낼 수 있게 됩니다.

데이터 상관관계 가시화
데이터 상관관계 가시화

데이터 가시화 – Matplotlib

위에서 보여준 상관관계 가시화는 색이나 도형의 크기로 데이터의 관계를 보여줍니다. 이렇듯 데이터 분석이 완료되면 보는 사람들이 직관적으로 결과를 확인할 수 있게 가시화 작업을 해야 합니다.

파이썬에서 많이 사용하는 가시화 라이브러리는 ‘Matplotlib’과 ‘Seaborn’입니다. matplotlib을 일반적으로 사용하게 되고 seaborn은 좀 더 특이한 그래프를 만들 때 사용합니다.

회사 업무를 위한 파이썬 독학방법을 마치며

최근 회사에서는 데이터 분석에 많은 관심을 갖고 있습니다. 직원들에게 데이터의 필요성을 강조하며 데이터 분석을 요구하기도 합니다.

파이썬은 언어가 직관적이기 때문에 쉽고 빠르게 배울 수 있는 장점이 있습니다. 또한, 무료로 사용할 수 있기 때문에 회사에서도 활용하기 좋습니다.

이 블로그에서는 데이터 분석 초기 입문자들을 위해 가장 먼저 배워할 내용부터 보고서 작성을 위한 심도 깊은 내용까지 다룰 예정입니다.

Similar Posts