- 2011년 LinkedIn에서 개발
- Apache Kafka는 스트림 처리, 실시간 데이터 파이프라인 및 대규모 데이터 통합에 사용되는 오픈 소스분산 스트리밍 시스템
- 데이터를 생성하는 어플리케이션과 데이터를 소비하는 어플리케이션 간의 중재자 역할
- 높은 처리량
- 높은 확장성
- 낮은 대기시간
- 데이터 보관
- 고가용성
- Fortune 100대 기업의 80% 이상이 사용하는 오픈소스
- 데이터 아키텍쳐가 파편화 되어있음
- 시스템이 점점 커질 수록 족잡해지는 문제가 발생함
- 데이터 아키텍쳐가 카프카를 통해 중앙집중화
- 심플한 구조로 시스템이 점점 커져도 데이터는 카프카에서 가져가면 됨
- 소스와 타킷의 커플링을 최소화
Producer -> Kafka Cluster <- Consumer
카프카가 중간단계 역할을 함