본문 바로가기

Big Data

(4)
[Druid][Tutorial] Writing an ingestion spec Example Data 다음과 같은 데이터가 있다고 가정해보자. srcIP: IP address of sender srcPort: Port of sender dstIP: IP address of receiver dstPort: Port of receiver protocol: IP protocol number packets: number of packets transmitted bytes: number of bytes transmitted cost: the cost of sending the traffic {"ts":"2018-01-01T01:01:35Z","srcIP":"1.1.1.1", "dstIP":"2.2.2.2", "srcPort":2000, "dstPort":3000, "protocol": 6,..
Druid - Design 드루이드는 클라우드 친화적이고 운영하기 쉬운 멀티 프로세스, 분산 아키텍처를 가지고 있다. 각각의 드루이드 프로세스 타입은 독립적으로 유연하게 구성되고 scale 될 수 있다. 이러한 디자인은 fault tolerance 를 증가시켜준다. Processes and Servers 드루이드는 아래와 같은 몇가지 프로세스 타입들을 가진다. Coordinator : cluster 에서 데이터의 가용성을 관리한다. Overlord : data ingestion workloads 의 할당을 컨트롤한다. Broker : 외부 클라이언트들로부터 유입되는 쿼리들을 처리한다. Router : 이 프로세스는 optional processes 이다. broker, overlord, overlord 들로 가는 쿼리들을 rout..
Druid - Technology Overview 아파치 드루이드는 오픈소스 분산데이터 저장소이다. 드루이드의 핵심 디자인은 data warehoses, timeseries databases 그리고 search systems 가 결합된 것이다. 드루이드는 위 세가지 특징을 ingestion layer, storage format, querying layer 그리고 core architecture 로 결합해서 구현한다. Key features of Druid include: Column-oriented storage Druid stores and compresses each column individually, and only needs to read the ones needed for a particular query, which supports fas..
Druid - Use Cases 아파치 드루이드는 실시간 성능이 중요한 시스템에서 위력을 발휘하는 데이터베이스이다. 드루이드는 분석용 어플리케이션의 GUI 로 훌륭하게 작동하며 fast aggregation 이 필요한 backend 시스템에도 적합하다. 또한 드루이드는 event-oriented 한 data 에 훌륭하게 적용된다. Use Cases 드루이드의 일반적인 응용 분야는 다음과 같다. Clickstream analytics (web and mobile analytics) Risk/fraud analysis Network telemetry analytics (network performance monitoring) Server metrics storage Supply chain analytics (manufacturing met..