인턴 후기

[인턴 후기] KPMG 컨설팅 인턴 (2) - 업무 1. 데이터 전처리

m00n0107 2025. 10. 14. 09:28

지난번에 이어 오늘은 Digital Transfer 팀에서 하던 업무에 대해서 간략하게 적어보려한다.

 

인턴으로서 했던 업무는 크게 두가지였다. 1. 데이터 전처리, 2. 리서치. 이 중 첫번째 재무 데이터 전처리 업무가 우리 팀 인턴의 주요한 임무였고, 시즌이 끝나고나서부터 간간히 리서치 업무를 주셨다.

 

1. 데이터 전처리

내가 입사했던 시기는 기말 회계 감사 시즌이라, 우리 회사는 고객사로부터 재무 데이터를 받아서 IT 감사를 수행한다. 이전에는 대부분 사람이 직접 검수하는 경우가 많았지만, IT 전산화가 감사영역에도 도입됨에 따라 개발자, 데이터 엔지니어, 분석가 등이 감사 업무에 투입되게 되었다. 

 

인턴들을 조를 나눠서 조별로 회사가 할당되는데 보통 한 시즌에 인당 몇십개의 회사 데이터를 관리하게 된다. 사실 처음에는 간단한 일이라고 생각했는데, 이게 생각보다 까다로웠다. 데이터를 전처리하는 이유는 회계사, 분석가들이 데이터를 분석하기위한 일관된 포맷을 만들어 분석, 문서화까지 바로 이뤄질 수 있도록 기틀을 마련하는 것인데, 고객사 데이터가 워낙 파일 포맷부터 형식, 에러가 정말 다양하다. 아무래도 고객사 대부분이 대기업이다보니 데이터의 양이 방대할 수 밖에 없는데, 그 정도 데이터를 전처리하는게 쉽지않았다.

 

전처리 업무를 수행하면서 특징적인 점이 두가지가 있는데

 

 

첫번째. 대용량 데이터 핸들링


고객사 대부분이 대기업이다보니 데이터의 양이 방대할 수 밖에 없는데, 방대한 크기의 데이터를 핸들링하는게 쉽지않았다. 엑셀에서 edit 하는건 당연히 안되고, 회사에서 사용하는 툴을 사용했는데, 그럼에도 불구하고 용량을 견디지못해 랩탑이 멈추거나하는 일들이 부지기수였다. 내가 맡았던 특정 회사에서는 10억행을 가진 데이터도 있었는데, 특정 컬럼에서 숫자 하나라도 오타가 있다면 찾아내야만했다. 그 과정에서 파이썬을 사용할 수 있었어서 인턴 동기들 각자만의 방식으로 코딩을 해서 전처리하는 경우도 많았다. 아무래도 메모리를 효율적으로 사용해서 많은 데이터를 다룰 수 있도록 코드를 설계하는 과정이 핵심이었다. 코어로직은 병렬처리를 검토한다던가, 불필요한 메모리를 사용하지 않도록 알고리즘을 수정한다던가 하는 고민을 많이해볼 수 있었다.

 

나같은 경우에도 반복적인 작업이 있다면 자동화하는 코드를 짜서 활용했었다. 하지만 문제는 이러한 전처리 작업이 회사마다 케이스가 다 다르다는 것이다. 그렇기 때문에 특정 회사 데이터 전처리를 자동화하더라도 이 코드가 다른 회사에서는 전혀 먹히지 않는 경우가 많았다. 이때문에 인턴 동기들끼리 최대한 공통된 작업은 한 번에 전처리할 수 있는 코드를 같이 짜보자고 노력했던 적도 있는데, 이 역시 쉽진 않았다.

 

 

 

두번째. 까다로운 도메인의 특성


아무래도 감사 업무이고 숫자를 다루다보니, 조금이라도 숫자가 어긋나면 안된다. 회계 부정을 잡아내는 작업은 조금이라도 실수가 있으면 안되기 때문에 검토 작업이 매우 중요하다. 이 부분에서 내가 다른 인턴 동기들보다 조금 수월했던 것 같다. 나는 군대에서 CPA를 공부해본 경험이 있기 때문에 회계 용어나 감사 업무 프로세스에 대해서 익숙한 편이었다. 그래서 회계 지식 베이스로 전처리 여부를 검토하는 로직을 수월하게 짤 수 있었고, 이 부분도 업무에 있어서 도움이 많이 됐다.

 

확실히 데이터를 다루는 영역은 도메인 지식이 있을수록 업무가 더 수월한 것 같고, 그래서 도메인 실무자와 협업 또한 중요한 것 같다. 회계사님들과 소통하면서 업무를 진행하는 과정이 재밌었고, 좋은 사람들을 만나서 지금까지 연을 이어가고있다.

 

 

매일 일찍 출근해서 여유를 즐겼던 회사 공간

 

 

두번째 업무인 리서치는 다음 글에서 간단하게 적어보겠다.

 

반응형