하둡은 빅데이터를 분산해서 병렬 처리하는 프레임워크다. 데이터가 매우 큰 경우 하나의 시스템에서 처리할 수 없다. 그래서 시스템을 많이 두고 작업량을 분산시켜서 동시에 병렬 처리하는 방식을 택한다. 이 경우 다수의 시스템을 관리하는 역할을 수행해야 하는데, 이 역할 마스터 시스템이 수행하게 되고, 이를 마스터-슬레이브 구조라고 한다. 맵리듀스 프레임워크 하둡의 가장 기본이 되는 시스템이다. 맵(Map) + 리듀스(Reduce)의 합성어다. 하둡 이해에 꼭 필요한 개념이 맵리듀스와 HDFS이다. HDFS(하둡분산파일시스템)은 데이터를 저장하는 쪽이고, 그 위에서 작업을 처리하는 쪽이 맵리듀스이다. 맵리듀스 프레임워크는 세 단계로 나누어진다. 맵(map): 분산된 데이터를 키(key)와 값(value)의 리..