데이터는 알고있다. 빅데이터가 만드는 세상
2022-12-07, 완독 1회
뭉쳐야 산다
빅데이터는 대량의 정보를 바탕으로 작은 데이터에서 볼 수 없었던 새로운 통찰과 가치를 획득할 수 있는 기술이다. 근래에는 넷플릭스의 추천시스템이나 대선 예측 등을 통해 더욱 주목받고 있다. 빅데이터의 핵심은 대량 데이터이다. 데이터의 양이 많아졌을 때는 거대한 흐름뿐만 아니라 오랜 데이터 분석 방법이었던 샘플링 기법에 비해 더욱 정교한 의미가 드러나기도 한다.
몇 년 전 파트타임으로 모델하우스에서 진행하는 선호도 설문조사 기록에 참여한 적이 있었다. 외부에서 설문조사를 받아오면 그 조사지의 정보를 기록하는 것이 내 일이었다. 약 40일가량 진행한 이 조사에서는 하루에 수백건의 설문지를 받았는데 설문지의 응답은 일부 비어져 있는 것이 많았다. 가령 선호하는 평수나 연봉을 묻는 질문에는 비어 있는 경우가 종종 있었고 이런 때에는 임의의 대표 값(imputation)으로 대체하여 넣었어야 했다. 대량 데이터는 이렇게 공백이 있거나 값이 들쭉날쭉(messy)하다는 점이 특징이다. 빅데이터는 대량 데이터를 수집한다는 것이 전통적인 데이터 분석과의 큰 차이를 가진다. 저자는 우리가 자칫 데이터의 질에 집중하고, 따라서 데이터의 정교한 수집에 많은 공을 들이고는하지만 그보다는 많이 수집하려고 하는 것이 더 중요하다고 강조한다. 이는 대량 데이터를 수집하는 과정에서 데이터는 필연적으로 불완전하게 수집될 수밖에 없기에 오류를 제어하는데 비용을 쓰기보다는 오히려 용인할 때 더 유의미한 결과가 도출될 수 있기 때문이다. 한편 빅데이터는 우리의 세상을 바라보는 관점을 바꾸기도 한다. 우리는 사회에서 발생하는 단순하거나 또는 복잡한 문제를 인과 관계로 접근하려고 한다. 하지만 빅데이터의 관점에서 세상은 상관관계가 더 중요하다. 상관성을 찾는 것은 더 저렴할 뿐만 아니라 시시각각 변하는 현대사회에서는 '왜(why)' 라는 원인 보다는 '그래서 무엇을(what)'의 결론에 집중하는 것이 적절할 때도 있기 때문이다. 예를 들어 아마존은 이러한 상관관계에 기초한 데이터분석을 기반으로 특정 고객이 왜(why) 이 상품을 구매했는지 찾기 보다 결과적으로 어떤(what) 상품을 살 것인지에 집중했고 좋은 성과를 냈다. 따라서 저자는 적어도 빅데이터는 인과성이 아닌 상관성의 관점에서 접근해야 한다고 주장한다.
모델하우스에서 진행한 설문 기록 과정은 정보를 데이터화 하는 과정이었다. 다양한 필체로 쓰여진 종이의 글자를 엑셀에 넣고, 그 자료를 통해 유의미한 통찰을 얻고자 했던 노력이 있었기 때문이다. 빅데이터는 '디지털화'와 '데이터화'를 전제로 한다. 오늘날 데이터화는 텍스트 뿐만 아니라 공간, 소통, 사물 등 모든 것으로 확장되고 있으며 실시간으로 계속해서 많은 데이터가 쌓이고 있다. 또한 이전에는 이미 지나갔다고 여겼던 필요 없는 데이터도 최근에는 가치를 인정받고 있는데 이는 처음 어떤 의도를 가지고 수집했던 데이터들이 나중에는 다른 목적으로 이용되며 높은 가치를 창출하기 때문이다. 따라서 데이터를 수집할 능력이 있는 회사들은 데이터 공급을 통해 빅데이터 가치사슬의 부분을 형성하고 있고, 한편 데이터를 처리 및 분석할 능력이 있는 기업들은 그런 회사로부터 데이터를 구매하여 사용하기도 한다. 뿐만 아니라 좋은 아이디어를 바탕으로 분석 기술은 아웃소싱하여 상당한 성과를 얻을 수도 있다. 또한 원자재로서의 잔해 데이터는 다른 자원에 비해 정량적인 가치 면에서는 가시성이 비교적 떨어지지만 실제로는 기업에 상당한 경쟁력을 제공하기도 하고 반대로 감가상각으로 인해 가치가 상실될 수도 있게 되었다. 이렇게 오늘날 데이터는 단순하게 수치로 평가하기 힘든 가치를 지니고 비즈니스 현장에서 핵심적인 역할을 하기도 한다. 따라서 데이터를 기업의 중요한 자산으로 취급하지 않는 기업들은 경쟁 열위를 맞게 될지도 모른다.
빅데이터는 우리 세상의 모든 것을 데이터화 하기에 의도하지 않게 개인의 정보를 수집한다. 데이터 수집은 인터넷을 쓰는 대부분의 사람들에게는 익숙한 현실이지만 여전히 많은 사람들은 자신의 정보가 수집되고, 저장되며 재사용되는 상황에 대해 불편함을 느낀다는 점도 부정할 수 없다. 통제없는 빅데이터 기술은 사회를 억압하거나 예상하지 못한 방향으로 이끌 수도 있다. 가령 저자는 범인을 잡거나, 처벌하는 과정에서의 빅데이터 기술에 대한 지나친 의존은 오판이나 무고한 사회적 낙인으로 이어질 수 있다고 우려한다. 코로나의 유행으로 시행된 QR코드 제도는 표면적으로는 역학조사를 하기 위함 이었지만 사생활 침해라며 걱정하는 사람들도 적지 않았다는 점에서 빅데이터의 어두운 면은 많은 시사점을 준다. 따라서 적절한 제도와 데이터 이용자들의 책임 있는 자세는 반드시 필요하다. 저자는 무엇보다도 데이터 분야 종사자들이 자신의 임무에 대한 막중함을 인식하고 강한 책임을 부여하는 것을 해결책으로 강조한다. 이는 개인의 정보를 사용하는데 있어서 더 조심스럽고 건전한 의도에 사용하도록 계도하는 좋은 방법이 될 것이다.
넷플릭스와 아마존은 데이터를 전략적으로 활용해 성과를 얻은 대표적인 사례로 꼽힌다. 동네 비디오 대여점이었던 넷플릭스는 글로벌 미디어 기업으로 발돋움했으며, 책 판매가 주요 비즈니스 모델이었던 아마존은 오늘날 세계에서 가장 큰 전자상거래 기업이 되었다는 점에서 빅데이터는 이제 완전히 우리 삶 속에 자리 잡았으며 기업들에게 중요한 기술이 되었다는 점을 부인할 수 없다. 하지만 여전히 많은 기업들은 빅데이터를 가끔 맞아떨어지는 운 좋은 도구, 보조 자료만으로 인식하고 보수적인 자세를 보이고 있다. SKT의 데이터 기술 응용 전문가인 정도희씨는 자신의 저서 '인공지능 시대의 비즈니스 전략'에서 "데이터 드리븐 비즈니스" 라는 개념을 소개하며 기업들이 더 공격적으로 빅데이터 기술을 받아들여야 한다고 주장한다. 또 운영시스템과 프로세스 개선 지점 포착, 신규 비즈니스 개발 등에 빅데이터를 적용하기 위한 기회가 여전히 부족하다는 점을 강조한다. 또한 빅데이터에 대한 무지와 오해로 인하여 발생하는 조직간의 갈등, 예를들어 기업의 IT팀과 데이터팀이 영역 다툼을 하거나, 경영진의 판단이 분석 결과와 다르다는 이유로 분석 결과가 홀대되는 등 기업들은 여전히 새 흐름을 받아들이는데 어려움을 겪고 있다는 점을 지적한다. 빅데이터의 효과를 최전선에서 목격하면서도 자신의 경험과 관례에 의존한 의사결정을 하고 있는 것이다. 따라서 빅데이터에 기반한 경영방법론과 조직관리, 협업체계 등을 비즈니스에 적용하는 '데이터 드리븐 비즈니스'는 경영진의 강한 의지로부터 전사적 차원으로 확장되어야 한다.
빅데이터의 미래
저자는 책을 마무리하며 보수적이고 의심 많은 이들에게는 빅데이터가 가진 희망을 전하고 한편 맹신하는 이들에게는 한발 물러서 바라볼 것을 권하고 있다. 어떤 기술이든 명암이 존재하기 때문이다. 이 책을 통해서 빅데이터는 잘 사용한다면 인터넷의 보급과, 센싱기술의 발전으로 인한 기하급수적으로 증가한 데이터를 유용하게 사용할 수 있는 좋은 기술이 될 것이라는 것을 알 수 있다.


댓글
댓글 쓰기