- 데이터 엔지니어링은 데이터를 수집하고 사용할 수 있도록 시스템을 구축하는 것
- 이 데이터는 일반적으로 후속 분석 및 데이터 과학을 가능하게 하는데 사용함
- 데이터를 사용 가능하게 만드는 것은 일반적으로 상당한 컴퓨팅 자원이 필요하며, 이에따른 데이터 처리 및 정리를 포함함
- 다양한 서비스에서 생성된 데이터들을 모으는 일
- 데이터 파이프라인
- 배치 또는 스트리밍
- 파이프라인을 어떻게 구성할 것인가
- 적절한 기술의 선택, 의사 결정
- 배치 처리, 스트리밍 처리
- 쿼리를 통한 분석, 분석 시스템
- 어떻게 전달할 것인가 ( Visualization , dashboard )
- Feature Engineering
- 모델을 위한 데이터 전처리
- 생성일자, 업데이트 일자 등등의 Timestamp 처리