새벽을 밝히는 붉은 달

[나는 리뷰어다] 데이터 품질의 비밀 본문

Developer/Book

[나는 리뷰어다] 데이터 품질의 비밀

자윰 2023. 5. 28. 19:17

데이터를 다루는 사람들이라면 데이터 품질에 대해 고민하는 순간들이 끊임없이 있을 것이다. 나 또한 데이터 품질에 대해 고민하는 순간들이 많고, 또 더 나은 데이터 품질을 위해 여러가지 작업을 진행하고 있는데, 그런 나에게 있어 작업을 진행하기 전에 봤으면 얼마나 좋았을까 하는 생각이 드는 책이었다.

 

책은 데이터 품질이 무엇인지부터 시작하며, 일반적으로 데이터를 다루는 사람들이라면 한번 쯤 다 들어보았을 데이터 웨어하우스와 데이터 레이크, 배치 처리와 실시간 처리, ETL과 ELT, 에어플로우와 같은 워크플로 등에서 데이터 품질을 향상시키기 위해 어떤 것들을 할 수 있는지를 예제와 함께 보여주고 있다. 예제의 경우 직접 데이터셋을 보고 SQL 쿼리를 통해 하나하나 추론해나가면서 품질을 향상해나가는 방법을 보여주기도 하고, 특정 제품군(ex. 스노우플레이크)에서 어떤 식으로 데이터 품질을 위한 기능을 제공하는지를 쿼리할 수 있는 SQL 쿼리를 보여주기도 한다.

 

책을 읽으면서 좋았던 점은 데이터 품질을 향상시키기 위해 선택할 수 있는 방안들을 여러 가지 소개하고, 그것들이 언제 적합한지, 장단점은 무엇인지 소개해놓았다는 점이다. 각자 다루는 데이터의 도메인이나 규모, 사이즈, 형태 등이 모두 다르기 때문에 이런 것들을 비교하며 적절한 방식을 적용할 수 있도록 고려할 수 있다는게 좋았다. 책의 후반부에는 실제 사례에 대해서도 소개가 되어있는데, 이런 사례들을 보면서 나는 어떤 방향으로 나아가야하고, 데이터팀은 어떤 방식으로 나아가야하는지 방향성도 엿볼 수 있어 좋았다.

 

데이터를 다루는 사람들은 데이터의 신뢰도를 위해 데이터 품질을 고민해본 경험이 한번 쯤은 있을 것이다.  이 책은 데이터 품질 향상 고민을 하는 사람들에게 문제를 어떤 식으로 풀어나가야 할 지 길을 제시해주는 좋은 이정표가 될 것이다. 나 또한 데이터 품질과 관련하여 실제로 실무적으로 고민하던 부분이 있었고, 이를 해결할 수 있는 부분을 책에서 발견했기 때문에, 데이터 품질을 고민하는 사람이라면 시간내어 읽어보는 것을 추천한다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

Comments