RDD ? RDD는 Resilient Distributed Dataset 의 줄임말로 스파크의 기본 데이터 구조이다. Spark 에서 모든 작업은 새로운 RDD를 만들거나, 변형하거나, 연산하는 것 중 하나이다. Spark 에서는 빠른 맵리듀스 작업을 위해서 RDD를 사용해 처리한다.즉, 하둡에서의 맵리듀스의 단점을 보완하기 때문에 RDD로 대세가 바뀌게 되었다. 하둡에서의 Map Reduce 중간 결과에 대해 데이터 복제, I/O 직렬 수행으로 인해 오버헤드가 발생한다는 문제점이 있다. RDD라는 아이디어에 따르면, 메모리 내에서 데이터를 공유한다. 네트워크나 디스크에서 작업하는 것보다 메모리에서 작업하게 되면 10배에서 100배정도 더 빠르다. memory 의 내용을 read-only 로 사용하게 한..
Data Engineering
SQL에서는 별칭을 사용할 수 있다. 그런데 구문에 따라서 별칭 사용이 가능할 수도 , 아닐 수도 있다. 이는 SQL 쿼리가 실행될 때 순서가 있기 때문이다. 예를 들어서, 다음과 같은 테이블이 있다고 하자, 가격과 수량 정보가 있는 간단한 테이블이다. 가격과 수량을 곱해서 amount 라는 별칭으로 컬럼을 하나 더 만들어 주었다. 그런데 다음과 같이 WHERE 절에서 amount 라는 별칭을 사용하게 되면 Unknown column 이라는 에러가 발생한다. 이는 SQL 서버에서 내부처리가 WHERE -> SELECT -> ORDER BY 구 순서로 실행되기 때문이다. 그리고 SELECT 구가 실행될 때 별칭 amount 가 지정된다. 따라서 SELECT 다음으로 실행되는 ORDER BY 구에서 amou..
과일로 만든 아이스크림 고르기 -- 코드를 입력하세요 SELECT A.FLAVOR FROM FIRST_HALF A JOIN ICECREAM_INFO B ON A.FLAVOR = B.FLAVOR WHERE A.TOTAL_ORDER > 3000 AND B.INGREDIENT_TYPE = 'fruit_based' ORDER BY A.TOTAL_ORDER DESC
빅데이터로 성공하기 1강 10년전의 빅데이터 개념 은 3V이다 Volume - 소셜미디어가 아주 큰 빅데이터의 소스이다. 다음으로는 IoT 기기가 있다. Velocity - 데이터의 생성 속도. 데이터를 받자마자 처리하고 알려줄 수 있어야 한다. Variety - 데이터의 범주가 문서로 넘어갔다. 텍스트, 이미지, 소셜네트워크 -> 소셜 데이터의 등장 (사람과 사람 사이의 관계를 데이터화 한다. 이런 인간관계 데이터를 가지고 연구할 수 있다. ) 데이터 + 명제 -> 데이터 분석 데이터 + 귀납적 추론 -> 머신러닝 빅데이터로 성공하기 2강 인스타, 유투브, 카톡이 공짜인 이유는 ? 우리가 암묵적으로 서비스를 무료로 사용하는 대신 대기업들에게 데이터를 제공하고 있기 때문이다. 이는 불공정하다 ! 정보보호..
1. Graph 자료 구조 Vertice와 edge들을 가지고 구성되어있는 자료구조이다. edge들은 vertices 간의 연결된것을 의미힌다. 2. 그래프 자료구조를 처리하기 어려운 이유 Graph Data는 복잡하다. : 전통적인 ML, DL 도구들은 simple data types에 특화되어 있다. ex) 이미지 데이터는 같은 구조와 사이즈여서 fixed-size grid graph로 생각할 수 있음 , 순차적인 text or speech 데이터 그래프는 유클리드 공간에 있지 않다. 즉, 좌표계로 표현할 수 없다. 시계열 데이터, 음성, 이미지 데이터가 2차원 및 3차원 유클리드 공간에 매핑을 할 수 있는 것과 달리 그래프 데이터는 매핑하기 어렵다. 그래프는 고정된 형태가 아니다. : 가변적인 크기..