데이터 준비란 무엇인가요?
데이터 준비는 추가 처리 및 분석에 적합하도록 원시 데이터를 준비하는 과정입니다. 핵심 단계에는 원시 데이터를 수집하고 정리하여 기계 학습(ML) 알고리즘에 적합한 양식으로 레이블 지정한 다음, 데이터를 탐색하고 시각화하는 단계가 포함됩니다. 데이터 준비는 ML 프로젝트에서 소비되는 시간 중 최대 80%를 차지할 수 있습니다. 이 과정을 최적화하기 위해 특화된 데이터 준비 도구를 사용하는 것이 중요합니다.
ML과 데이터 준비는 어떤 관련이 있나요?
데이터는 이전과는 다른 방식으로 조직을 거쳐가는데 스마트폰, 스마트 시티 등의 다양한 사물로부터 정형 데이터와 비정형 데이터(이미지, 문서, 지리 공간 데이터 등) 형태로 도달합니다. 비정형 데이터는 오늘날 데이터의 80%를 차지합니다. ML은 정형 데이터뿐만 아니라 비정형 데이터의 패턴도 분석할 수 있습니다. ML은 컴퓨터가 데이터를 해석해서 해당 데이터를 기반으로 의사 결정 및 권고를 하는 방법을 배우는 프로세스입니다. 학습 과정 동안, 그리고 나중에 예측에 사용될 때, 잘못되거나 편향되거나 불완전한 데이터는 부정확한 예측을 초래할 수 있습니다.
ML에서 데이터 준비가 중요한 이유는 무엇인가요?
데이터는 ML의 원동력입니다. 이 데이터를 활용하여 비즈니스를 탈바꿈하는 것은 어려운 일이지만 현재와 미래에 두각을 나타내는 데 필수적입니다. 가장 많은 정보를 받아들이고 그 정보를 가장 합리적이고 유익한 결정을 내리는 데 사용하고 예기치 않은 상황에 더 빨리 대응하며 새로운 기회를 찾아내는 자들이 성공하게 마련입니다. 이 중요하지만 지루한 프로세스는 정확한 ML 모델 및 분석을 구축하기 위한 전제 조건이며, ML 프로젝트에서 가장 시간이 많이 소요되는 부분입니다. 이 시간 투자를 최소화하기 위해 데이터 사이언티스트는 데이터 준비를 자동화할 수 있는 도구를 다양한 방식으로 사용할 수 있습니다.
어떻게 데이터를 준비하나요?
데이터 준비는 올바른 데이터 수집으로 시작하여 정리, 레이블 지정, 유효성 검사 및 시각화로 이어지는 일련의 단계를 따릅니다.
데이터 수집
데이터 수집은 ML에 필요한 모든 데이터를 모으는 프로세스입니다. 데이터는 노트북, 데이터 웨어하우스, 클라우드, 애플리케이션 내부 및 디바이스 등 여러 데이터 소스에서 산재해 있기 때문에 데이터 수집 과정이 지루할 수 있습니다. 다양한 데이터 소스에 연결하는 방법을 찾기가 어려울 수 있습니다. 데이터 볼륨도 기하급수적으로 증가하고 있으므로 검색할 데이터가 많습니다. 또한 데이터는 소스에 따라 매우 다양한 형식과 유형을 갖습니다. 예를 들어, 동영상 데이터와 테이블 형식 데이터는 함께 사용하기가 어렵습니다.
데이터 정리
데이터 정리는 데이터 품질을 보장하기 위한 단계로서 오류를 수정하고 누락된 데이터를 채웁니다. 정리된 데이터를 얻은 후에는 일관되고 읽기 쉬운 형식으로 변환해야 합니다. 이 프로세스에는 일관성을 위해 날짜 및 통화와 같은 필드 형식 변경, 이름 지정 규칙 수정, 값 및 측정 단위 수정이 포함될 수 있습니다.
데이터 레이블 지정
데이터 레이블링은 원시 데이터(이미지, 텍스트 파일, 동영상 등)를 식별하고, 의미 있고 정보성이 있는 한 개 이상의 레이블을 추가하여 컨텍스트를 제공하는 과정으로, ML 모델이 이를 통해 학습할 수 있습니다. 예를 들어, 레이블은 사진에 새나 자동차가 있는지 여부, 음성 녹음에 어떤 단어가 언급되었는지 또는 엑스레이에 비정상이 발견되었는지를 나타낼 수도 있습니다. 데이터 레이블링은 컴퓨터 비전, 자연어 처리, 음성 인식 등과 같은 다양한 사용 사례에 필수적입니다.
검증 및 시각화
데이터를 정리하고 레이블 지정한 후, ML 팀은 데이터가 올바르고 ML에 사용할 준비가 되었는지 확인하기 위해 데이터를 자주 검토합니다. 히스토그램, 산점도, 상자 수염 그림, 선 그래프, 막대 차트와 같은 시각화는 모두 데이터가 올바른지 확인하는 데 유용한 도구입니다. 또한 시각화는 데이터 과학 팀이 탐색적 데이터 분석을 완료하는 데 도움이 됩니다. 이 프로세스는 시각화를 사용하여 패턴을 발견하거나, 이상치를 식별하거나, 가설을 테스트하거나, 가정을 확인합니다. 탐색적 데이터 분석에는 공식 모델링이 필요하지 않습니다. 대신 데이터 과학 팀은 시각화를 사용하여 데이터를 해독할 수 있습니다.
AWS에서는 어떤 도움을 줄 수 있나요?
Amazon SageMaker 데이터 준비 도구는 조직이 정형 및 비정형 데이터 모두에서 인사이트를 얻는 데 도움이 됩니다. 예를 들어 Amazon SageMaker Data Wrangler를 사용하면 코드가 없는 시각적 인터페이스를 통해 내장된 데이터 시각화로 정형 데이터 준비를 간소화할 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 피처를 정규화하고 변환하며 결합할 수 있습니다. 원하는 경우 Python 또는 Apache Spark에서 사용자 지정 변환을 가져올 수도 있습니다. 비정형 데이터의 경우 레이블 지정된 대규모 고품질 데이터 세트가 필요합니다. Amazon SageMaker Ground Truth Plus를 사용하면, 레이블링 애플리케이션을 구축하거나 레이블링 인력을 직접 관리할 필요 없이 데이터 레이블링 비용을 최대 40%까지 절감하면서 고품질 ML 훈련 데이터 세트를 구축할 수 있습니다.
노트북에서 데이터를 준비하고자 하는 분석가 또는 비즈니스 사용자의 경우, Amazon SageMaker Studio 노트북에서 클릭 몇 번으로 Amazon EMR에서 실행되는 Spark 데이터 처리 환경을 시각적으로 찾아보고 검색하고 해당 환경에 연결할 수 있습니다. 연결된 후에는 대화형으로 데이터를 쿼리, 탐색 및 시각화하고 선택한 언어(SQL, Python 또는 Scala)로 Spark 작업을 실행하여 완벽한 데이터 준비 및 기계 학습 워크플로를 구축할 수 있습니다.