GDSC Sookmyung 활동/10 min Seminar

빅데이터를 알아보자

비냐 2023. 3. 13. 12:10

빅데이터란?

통상적으로는 크고, 복잡하고, 일시적이고, 무질서해서 보통의 컴퓨터로는 처리할 수 없는 대량의 데이터를 말한다. 최근에는 대량의 데이터에서 가치를 추출하고 결과를 분석하는 기술 등을 포괄하는 용어로 변화하는 추세.

세계적인 컨설팅 기관인 매켄지(Mckinsey)는 빅데이터를 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 규모로서 그 정의는 주관적이며 앞으로도 계속 변화될 것이라고 언급하고 있다.

 

기존 데이터와의 차이

  • 다양한 방법으로 수집된 여러 형태의 데이터 집합을 의미하지만, 비정형화된 데이터에 초점
  • 병렬 처리를 위한 컴퓨터 시스템들이 필요할 정도의 큰 데이터셋
  • 가치 창출에 의미가 있으며 이를위해 타당성(Validity), 신뢰성(Veracity) 확보에 노력
  • 단기간 활용보다는 장기적 활용에 초점

 

빅데이터의 특징

3V

Volume (규모) : 데이터의 크기(저장되는 물리적 데이터양)

  • 빅데이터란 이름에서 알 수 있듯 양이 큰 데이터를 말한다.

Velocity (속도) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성

  • 데이터의 고도화된 실시간 처리를 뜻한다. 이는 데이터가 생성, 저장, 시각화까지 이루어지는 과정이 얼마나 빠르게 처리되어야 하는지에 대한 중요성을 나타낸다. 아무리 많은 양의 좋은 데이터가 있더라도 수집되어 처리하는 속도가 느리다면, 그 데이터는 이미 과거의 데이터가 되어 쓸모 없어지기 때문.

Variety (다양성) : 다양한 종류의 데이터를 수용하는 특성

  • 기존의 구조화된 정형 데이터는 물론 사진, 동영상 등의 비정형 데이터까지 수용하는 것을 의미한다.
    • 정형 데이터 : 수치만으로 파악이 쉬운 데이터를 의미. 이름, 나이, 아이디 등이 있다.
    • 비정형 데이터 : 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터. 음성, 영상 등이 있다.

 

빅데이터가 등장한 초기에는 특징을 설명하는데 규모, 속도, 다양성 세 가지 특성으로 충분했다. 그러나 데이터의 영역이 더욱 커지면서 다양한 기술이 빅데이터와 결합되며 이 세 가지 특성으로는 설명하기 부족하다는 의견이 나왔고, 3V에 신뢰성과 가치라는 2가지 특성이 추가되어 5V가 되었다.

Veracity(신뢰성) : 데이터의 원천 및 형태 다양화에도 불구하고 신뢰성이 보장된 데이터

  • 빅데이터를 구성하는 데이터가 얼마나 신뢰할 수 있는지를 의미한다. 데이터가 많아질수록 엉터리 데이터도 커질 가능성이 높아지기 때문에 빅데이터를 수집할 때 분석할 만한 가치가 있는지 살펴야 할 필요성이 생겼다.

Value(가치) : 새로운 가치를 창출할 수 있는 데이터

  • 결국 빅데이터는 결국 비즈니스나 연구에서 유용한 가치를 이끌어낼 수 있어야 그 의미가 있다는 것이다. 데이터를 수집할 때 그 데이터를 활용하여 무엇을 할 수 있을지에 대한 고민이 필요하다.

 

최근에는 빅데이터의 활용 범위가 넓어지면서 정확성, 휘발성을 추가한 7V로 빅데이터 특성을 정의하는 의견이 나왔다.

Validity (정확성) : 데이터가 타당한지, 정확한지의 여부를 의미

  • 다양하고 많은 데이터를 빠른 속도로 수집하더라도 그 데이터가 정확한지에 대한 여부를 무시한다면 이는 올바르게 활용될 수 없다. 따라서 정확성이 빅데이터의 중요한 특성으로 추가되었다.

Volatility (휘발성) : 데이터가 얼마나 오래 저장될 수 있고 사용될 수 있을지에 관한 것.

  • 아무리 데이터의 양이 많고 잘 정리되어 있더라도 몇 년만 지나면 의미가 없어지는 유형의 데이터거나, 데이터의 양이 가진 자원에 비해 너무나도 커서 이를 오래 저장하는 것이 힘들다면 빅데이터로서의 활용성을 점검해보아야 할 것이다. 빅데이터는 단기적으로 활용하기 보다는 장기적인 관점에서 유용한 가치를 창출할 수 있어야한다.

 

빅데이터의 중요성

  • 정보의 디지털화로 데이터가 폭증하면서, 빅데이터는 사회, 문화, 경제 등 다양한 분야에 효과적으로 사용되고 있고, 향후에도 더욱 중요한 수단이 될 것으로 예측되고 있다.
  • 과학자들은 기후 변화, 지진, 전염병 유행 등을 예측하기 위해 데이터를 사용한다. 현재의 데이터를 활용해 미래를 예측할 수 있는 것이다.
  • 빅데이터는 경쟁력을 좌우하는 자원으로 활용될 수 있다. 데이터는 사용자들이 어떤 것을 원하고, 어떻게 이용하는지에 대한 정보가 모두 담겨 있다. 데이터 속에서 주된 고객층의 흐름을 파악하고, 거기에 맞는 상품을 제공하는 것이 고객과 기업 모두의 이익이 되기 때문에 빅데이터 활용은 이제 기업 입장에서 선택이 아닌 필수조건. 현재 동일 업종의 기업 내에서 빅 데이터를 이용하는 기업과 하지 않는 기업은 실제로 큰 차이를 보여주고 있다.

 

빅데이터의 사용 사례

1. 스타벅스가 망하지 않는 이유

스타벅스는 매장을 내기 전에 빅데이터를 기반으로 상권을 철저히 분석한다. 다른 스타벅스의 위치, 교통 패턴, 지역 인구 통계 등의 데이터를 다량 수집하고, 이를 분석하여 최상의 입점 위치를 찾아낸다. 또한 이 분석을 통해 신규 스타벅스 매장에 의해 기존 매장이 얼마나 타격을 입게 될지도 예측해낸다.

2. 구글의 독감 예측 시스템

구글은 검색 내역을 활용해서 인플루엔자 유행을 확인하고 있다. 사람들이 자신이나 가족이 아프면 가장 먼저 그에 관한 정보를 검색하기 때문. 검색 내역과 질병 데이터를 분석해 보았더니 실제로 연관성이 있는 것으로 나타났다. 구글은 의료기관보다 2주 먼저 인플루엔자 유행을 예측할 수 있었다.

 

빅데이터의 문제점

1. 분석 결과의 상관관계와 인과관계

이 그래프는 상어가 인간을 공격하는 사건(빨간색)과 아이스크림 판매량(파란색)이 매우 높은 상관관계를 가지는 것을 보여주고 있다. 이 그래프만 보면, 아이스크림이 많이 팔릴수록 상어가 사람을 많이 공격하니 아이스크림 판매량을 억제하면 상어가 인간을 덜 공격할 것이다는 성급한 결론을 내리게 된다. 즉, 빅데이터 분석을 통해 기존에 이해하지 못했던 상관관계들을 알 수 있게 되었을지는 모르지만, 실제 그러한 상관관계를 통해 인과관계까지는 확인할 수 없다.

 

2. 원인의 부재

데이터 분석을 통해 나온 결과로 원인을 파악하기는 힘들다.

결과만 중요할 때도 있지만, 반드시 그 원인을 알아야 할 때도 있다. 실제로 의료계에서 '설명가능한' 인공지능이라는 것은 매우 중요하다. 이것은 의료 AI가 데이터분석 또는 딥러닝을 통해 어떤 의료적 결정을 내리든 가장 중요한 것은 그 결론을 내린 근거를 분명하게 설명할 수 있어야 한다는 것으로, 특히 사람의 생명을 다루는 의료계에서 '설명가능한 AI'란 0.1%도 양보할 수 없는 절대적 가치이다.

 

3. 개인정보 침해

빅데이터는 수많은 개인 정보의 집합이고, 그렇기에 빅데이터와 관련한 가장 큰 문제점은 빅데이터 수집, 분석 과정에서 발생할 수 있는 다양한 프라이버시 및 개인정보 침해 가능성일 것이다. 최근 개인 정보를 활용한 빅데이터의 가치가 높아지면서 이용자의 동의 없이 개인 정보가 무단 유출되는 일이 갈수록 늘고 있다. 이전에는 광고를 위해 전화번호를 무단 수집하는 정도였다면 이제는 SNS 대화 내용을 AI 서비스 개발에 활용하는 일까지 벌어지고 있다.

'GDSC Sookmyung 활동 > 10 min Seminar' 카테고리의 다른 글

Apache Kafka 알아보기  (0) 2023.03.13
AI코딩  (1) 2023.03.13
GIT 브랜치 전략이란  (0) 2023.03.05
스프링부트 로그 찍기  (0) 2023.03.05
커스텀 데이터셋 만들기  (0) 2023.03.05