728x90
1. 빅데이터 기술
1. 비정형 데이터 수집
- 1) 척와 (Chukwa) : 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장
2. 정형 데이터 수집
- 1) 스쿱 (Sqoop) : 커넥터를 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 HDFS로 데이터를 수집
3. 분산 데이터 저장
- 1) HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 파일 시스템
- 2) 하둡 : 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼. 일반 PC급 컴퓨터로 가상화된 대형 스토리지를 형성하고 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크
4. 분산 데이터 처리
- 1) 맵리듀스 : 대용량 데이터 처리를 분산 병렬 컴퓨터에서 하기 위한 목적으로 제작
5. 분산 데이터 베이스
HBase : 컬럼 기반 저장소로 HDFS와 인터페이스를 제공
6. 데이터 가공
- 1) 피그 : 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그라는 자체 언어 사용
- 2) 하이브 : 하둡 기반의 DW 솔루션 . HiveQL 쿼리 제공
7. 데이터 분석 및 시각화
- R : 통계 프로그래밍 언어인 S를 기반으로 만들어진 오픈소스 프로그래밍 단어
2. NoSQL
* 특성
1. 언제든지 데이터는 접근할 수 있어야 한다. 분산 시스템이기 때문에 가용성을 중시
2. 노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아니라 외부에서 전송된 정보를 통해 결정되는 속성. 특정 시점에서는 데이터의 일관성이 보장되지 않음
3. 일정 시간이 지나면 데이터의 일관성이 유지되는 속성. 일관성을 중시하고 지향
728x90
'Computer Science > 정보처리기사' 카테고리의 다른 글
5 (3) 암호알고리즘 / 코드오류 / 캡슐화 / API 오용 취약점 정리 (0) | 2022.02.10 |
---|---|
5 (3) 소프트웨어 개발 보안 구축 ( XSS/CSRF/SQL삽입 ) (0) | 2022.02.10 |
5(2) 클라우드 컴퓨팅 , 스토리지 시스템 DAS, NAS, SAN (0) | 2022.02.02 |
인공지능, 머신러닝, 딥러닝 구분 (0) | 2022.01.30 |
5 (2) IT 프로젝트 정보시스템 구축 관리 1️⃣ (0) | 2022.01.30 |