Skip to content

데이터공학이란?

데이터는 무엇인가

배경

이른바 빅데이터 시대에 우리가 살고 있다는 것을 의심하기는 힘들다. 이런 시대 흐름을 쫓아 등장한 다양한 메타포가 있다. "데이터 댐"과 "데이터 레이크" 등이 있다.

정부 기관에서는 데이터 플랫폼을 구성하고 데이터 유통을 위한 환류 체계를 만들고자 하는 모습들이 보인다. 민간 부문에서 인공지능과 결합한 서비스를 발굴하고자 한다. 이런 흐름에 조금 편승하고자 하는 마음에서 들여다본 상황은 무엇인가 새롭지 않은 방향들이 많다는 점이다.

예전에 해결하기 어려운 문제들에 대한 접근을 시도할 수 있다는 점에서 빅데이터가 유용하다는 사실은 분명하다. 다만 빅데이터를 기존 접근 방식에만 활용한다면 아쉬움이 발생할 수밖에 없다.

이런 아쉬움이 무엇이고 왜 이런 생각을 하게되는지 고민하지 않을 수 없다. 어째서 우리가 다양한 방식을 고민하지 못하는지에 대해 생각해 보는 것이다. 이글은 작년(2019)에 처음 작성을 했다가 최근에 여러가지 이유로 다시 꺼내서 수정하게 되었다. 처음 작성할 때 데이터 공학을 준비하면서 데이터가 무엇인지 정의하려고 했다. 나열식으로 작성한 글을 다시 보면서 좀 더 가다듬고 생각해 볼 것들이 많았다.

이글은 작성자 개인 의견에 따른 것으로 학계의 의견이 반영되어 있지 않다. 또한 누리꿈소프트 의견과 일치하지 않을 수 있다.

데이터

우리가 데이터라고 말할 수 있는 총체적인 집합체가 있다고 한다면 그 집합체는 어떠어떠한 특징을 갖는다고 할 수 있다. 특징을 모두 다 들어낼 수는 없겠지만 중요한 것 몇 가지는 찾을 수 있다고 본다. 아래는 내가 생각 가능한 특징이다.

수집 및 해석 가능하며 분석 대상이다

수집되지 않는 데이터는 활용할 수도 없고 해석할 수도 없다. 데이터를 가지고 우리가 하는 일은 분석하기 위한 것이다. 아무리 단순한 데이터라도 해석 과정이 없다면 쓸모없는 것이 된다.

이론학자들은 정보 이론을 통해 만물을 해독할 수 있다고 주장한다. 데이터를 정보와 유사어로 고려한다면 데이터에도 동일하게 적용해 볼 수 있다.

복잡하지만 표준화 되어야 한다

데이터는 한번 정의되고 나면 점점 더 복잡해지고 확대되어나가는 경향이 있다.

매일 발생하는 데이터를 저장해야 하고 저장된 데이터 보관량이 늘어난다. 늘어난 데이터에서 형식과 의미 면에서 기존과는 다른 속성이나 특징이 발견된다.

데이터 거버넌스 관점에서 데이터를 관리하고자 하는 노력이 존재한다.

복잡성은 다양성이라는 의미를 내포하는 반면 표준화는 통일성을 지닌다. 우리는 다양성과 통일성을 이야기할 때 상반된 개념이라는 것을 알고 있다.

현장에서 우리가 겪는 문제에서 다양성과 통일성이라는 상반된 개념간의 충돌을 볼 수 있다.

요즘에야 정리된 생각은 데이터 표준화는 필요하지만 폭력적이어서는 안되며 관리 절차 표준화는 좀 더 강력해야 한다고 본다.

불확실성을 포함한다

데이터 분석 문제이든 데이터 자체 문제이든 불확실성을 무시할 수 없다. 좀 과장되게는 사칙연산처럼 전 우주적인 확실성을 보장할 수 없다는 점이 데이터를 다루는 문제를 어렵게 한다.

다양성이나 불확실성을 같은 맥락에서 정의해 볼 수 있으나 다양성은 데이터 자체가 그러한 것으로 이해되어야 하는 반면 불확실성은 제거되어야 하는 어떤 것으로 불편하게 생각한다.

또한 다양한 데이터가 항상 불확실성을 갖거나 불확실한 데이터가 다양성을 보장하는 것도 아니다.

불확실성은 데이터가 갖는 특징중 하나이며 다음과 같이 생각해 볼 수 있다.

  • 수집 시간 지연으로 특정 시간대 데이터를 알 수 없다.
  • 생성 단계에서 일부 영역 데이터가 오염되어 전체 신뢰할 수 없다.
  • 알려지지 않은 문제들로 인한 오류가 있고 추적이 불가능하다.

불확실성은 확실히 관리되어야 하지만 제거 대상으로 쉽게 단정지을 수 없다.

데이터 범주

인지 데이터

생활속에서 발생하는 데이터다.

자연 상태에서 발생하지 않지만 인류가 사회를 구성하면서 인간 사이에 발생하게 된 데이터다.

아마도 최초의 인류가 주고 받은 메시지를 수집할 수 있다면 우리는 데이터로 분석할 수 있을 것이다. 첨단 의료 현장에서 사용하는 의무기록과 10대 청소년이 주고 받는 트위터는 서로 다른 데이터로 보일지라도 인간의 소통이라는 관점에서 보면 같은 범주에 포함된다.

생활 데이터의 또다른 특징은 적당한 인지 능력을 갖추면 사람이 데이터를 해석할 수 있다는 것이다. 여기서 적당한 이라는 표현은 학습 정도나 교육 수준으로 해석할 수 있다.

꽃을 찍은 사진을 인간은 눈이라는 감각 기관을 통해 수집해서 뇌를 통해 해석할 수 있다.

인지 데이터는 사람이 개입되어야 해석이 가능하였다. 사람이 아닌 기계가 사람과 같은 판단이나 행위를 하도록 학습시키는 것을 머신러닝 또는 인공지능이라고 말한다.

흐름 데이터

통신/센서나 기계적 운영을 통해 얻어지는 데이터를 의미한다.

측정과 제어를 위한 데이터라는 점에서 인지 데이터와 달라보인다. 그 목적은 인간 소통을 위한 것이 아니다. 기계와 제어장치 간에 통신을 위한 데이터다. 인간은 최종적으로 해석의 주체이지만 인간이 데이터 발생과 수집 접점에서 개입할 수 없다. 즉 인간 개입이 없이도 네트워크 구간 통신망에서 데이터는 교환된다.

일단 연결되면 데이터는 물이 흐르듯 끊임없이 생성되고 수집된다. 통신/센서로 얻게되는 데이터는 이런 특징을 지니고 있다.

구성 데이터

구조물을 짓듯이 데이터가 인공물을 이루는 구성품이 된다.

인공물은 배의 설계도가 될 수도 있고 텍스트가 될 수도 있다. 소스코드도 데이터다. 흐름 데이터는 끊임없이 발생하고 해석된다는 점에서 구성 데이터와 다르다.

거대 데이터 센터에 존재하는 많은 하드웨어와 소프트웨어에 대한 데이터도 이 범주에 포함된다.

구성 데이터에는 규범적인 제약이 요구되지만 규범적 제약이 절대 수정되어서는 안되는 것을 의미하지 않는다. 구성품은 규격을 따르지만 규격은 언제나 변경될 수 있다.

데이터 범주를 정하는 이유

Data are characteristics or information, usually numerical, that are collected through observation

위키피디아 정의는 개인적으로 거친 정의라고 생각된다. 관찰이라는 행위는 데이터를 너무 한정짓는다. 다른 정의들도 살펴보았지만 만족스럽지 못했다.

세가지 서로 다른 데이터 범주는 데이터 수집 방식과 데이터를 관리하는 방식에서 서로 다르게 접근해야 함을 설명한다.

빅데이터 공학이 필요하다

서로 다른 특징이 있는 데이터를 동일시 할 때 맞딱뜨리는 불편함을 어떻게 해결할 수 있을 것인가? 이 질문에 대한 답을 빅데이터 공학이라는 단어에서 찾을 수 있다고 생각한다. 우리는 이를 빅데이터 공학이라고 이름한다.

빅데이터 공학은 어떻게 실현되나

누리꿈소프트는 빅데이터 공학을 새롭게 정의하고 절차화시키고자 노력하고 있다. 누리꿈소프트가 빅데이터 공학 분야에 최고는 아닐지라도 선도자로서 역할을 하고자 하기를 기대한다. 누리꿈소프트에 있으면서 오랜 기간 데이터 플랫폼 구축과 분석 사업을 수행하면서 필수로 갖추어야 하는 부분들을 고민하기 시작했다.

운영은 DataOps

데이터를 수집하고 분석에 필요한 절차를 정의할 때 검토해보아야 할 논의다.1

Agile 과 DevOps, 그리고 Lean 제조에 영향을 받아 DataOps 선언문이 발표되었다.

Info

누리꿈소프트는 정부 지원사업으로 빅데이터 분석 품질을 관리하기 위한 빅데이터 엔지니어링 방법론을 개발하고 있다. 멀지 않은 시기에 세상에 선보일 수 있기를 바란다.

처리는 데이터 플랫폼

데이터를 다루는 플랫폼을 가지고 있다. Hadoop이나 Spark 은 데이터를 다루는 플랫폼으로서 많이 사용되고 있으며 검증된 시스템이다.

인프라는 클라우드

데이터 플랫폼을 실행하기 위해서 인프라스트럭처가 있어야 한다. 이는 퍼블릭 클라우드를 활용할 수도 있고 조직 내부에 구성된 프라이빗 클라우드로도 할 수도 있다. 어느 경우이든 기술 인프라스트럭처는 데이터를 처리하기 위한 핵심 요소중 하나이다.

어플리케이션을 지원하는 모든 SW와 HW를 말하며 어플리케이션 수명주기를 지원하는 데이터센터, 운영체제, 배포 파이프라인, 구성관리 등을 모두 포함한다.

클라우드를 주도하는 진영에서는 아래와 같이 인프라스트럭처가 진화한다고 본다.

인프라

댓글