매년 매출액과 매출 성장률을 제시하고 자신의 성장률을 다른 부서의 성장률과 비교

판매 담당 부사장이 자신의 사업부의 실적을 경영진에게 전달하려고 합니다. 그의 사업부 매년 매출은 매우 좋지만, 다른 사업부에 비하면 아직 적은 편이다. 다른 부문과 나란히 올해 수치를 발표하면 팀의 성적을 정확히 반영하지 못할까 걱정이다. 그는 매년 매출액과 매출 성장률을 제시하고 자신의 성장률을 다른 부서의 성장률과 비교하기를 원합니다. 숫자 이야기만 사용하여 이 정보를 제공하는 것은 어렵고 시간이 … Read more

클라우드 컴퓨팅 벤더가 제공하는 서비스

클라우드 컴퓨팅 벤더가 제공하는 서비스로 컴퓨팅, 네트워킹, 데이터 스토리지 및 기타 하드웨어 리소스를 대여할 수 있는 기능을 포함합니다. 또한 서비스 공급자는 하드웨어 위에 로드 밸런싱, 최적화된 라우팅 및 운영 체제 등의 기능도 제공합니다. 이러한 서비스의 주요 사용자는 IT 인프라에 고가의 투자를 원하지 않고 필요에 따라 IT 인프라를 사용하고자 하는 중소 기업 및 개인입니다. 클라우드 컴퓨팅 … Read more

클러스터 매니저의 유형에는 현재 세 가지 클러스터 매니저 모드

Spark와 함께 작업할 수 있는 클러스터 매니저의 유형에는 현재 세 가지 클러스터 매니저 모드가 있습니다. Spark는 독립 실행형 모드(또는 클러스터가 단일 머신에 불과한 단일 머신 모드)에서 작동하거나, WARN(Hadoop과 함께 제공되는 리소스 관리자)과 함께 작동하거나, Mesos라는 다른 리소스 관리자와 함께 작동할 수 있습니다. 단일 머신의 스탠드 아론 모드에 비해, WARN과 MESO는 복수의 노드를 동시에 사용할 수 … Read more

애드혹 쿼리 또는 대화형 데이터 분석에도 사용

범용 빅데이터 컴퓨팅 프레임워크이므로 MapReduce 환경이 현재 적합한 모든 유형의 애플리케이션에 사용할 수 있습니다. 이러한 어플리케이션의 대부분은 배치 처리 타입입니다. 그러나 Spark는 속도와 반복 처리 및 실시간 데이터 처리 능력과 같은 고유한 기능으로 인해 MapReduce 프레임워크에 적합하지 않은 다양한 애플리케이션에도 사용할 수 있습니다. 또한 실행 속도 때문에 Spark는 애드혹 쿼리 또는 대화형 데이터 분석에도 사용할 … Read more

간단한 API의 또 다른 부작용은 사용자가 매퍼와 리듀서처럼 보일러 플레이트 코드

간단한 API의 또 다른 부작용은 사용자가 매퍼와 리듀서처럼 보일러 플레이트 코드를 많이 쓸 필요가 없다는 것이다. 이것은 프로그램을 간결하게 만들고 MapReduce에 비해 코드화하는 데 필요한 줄 수를 줄여줍니다. 이러한 프로그램은 또한 더 쉽게 이해하고 유지 관리할 수 있습니다. 인메모리 컴퓨팅: 아마도 Spark의 가장 큰 특징 중 하나는 인메모리 컴퓨팅일 것입니다. Spark가 MapReduce보다 최대 100배 빠른 … Read more

가장 널리 사용되는 최초의 빅데이터 솔루션 중 하나

가장 널리 사용되는 최초의 빅데이터 솔루션 중 하나인 Hadoop에만 초점을 맞췄습니다. Hadoop은 2005년에 세상에 소개되었으며 빅 데이터 처리를 위한 비교적 단순한 기능 덕분에 조직과 개인의 관심을 빠르게 사로잡았습니다. Hadoop은 주로 배치 처리 애플리케이션을 위해 설계되었으며, 이 과정에서 뛰어난 성능을 발휘했습니다. Hadoop은 순차적 데이터 처리 능력이 뛰어났지만 사용자는 Hadoop의 주요 제한 사항 중 일부를 빠르게 깨닫기 … Read more

대량의 텍스트에 대해 단어 수를 계산

대량의 텍스트에 대해 단어 수를 계산하려고 합니다. 코드를 실제로 구현하기 전에 프로그램의 의사 논리에 초점을 맞추도록 하겠습니다. MapReduce의 관점에서 프로그래밍 문제, 즉 매퍼와 리듀서를 생각하는 것이 중요합니다. 매퍼와 리듀서는 모두 (키, 값)을 입력으로 사용하고 (키, 값) 쌍을 출력으로 제공합니다. 매퍼의 관점에서 매퍼 프로그램은 단순히 각 단어를 입력으로 받아들이고 형식의 (키, 값) 쌍을 출력으로 제공할 수 … Read more