728x90
1. 테이블 적재 (전체 적재)
- Bronze - Silver - Gold 레이어를 두는 메달리언 아키텍처를 기반으로 ETL 파이프라인을 설계하고 있다.
- Bronze -> Silver 로 테이블 데이터 적재를 완료했다.
- SQL 문은 주로 union 을 사용하여 Target Table count 와 Source Table count 를 확인하고 있다.
2. Databricks 에서의 timezone 설정을 KST로 하도록 알아보는 중이다.
- Spark Cluster 설정을 아예 configuration 값으로 주는게 최선의 방법인 것 같다.
- Spark Cluster maven install 시에 구글 크롬 브라우저에서 잘 보이지 않는 이슈 & single cluster 는 설치 되는데 shared cluster 에서는 실행이 되지 않는 이슈가 있었다.
3. schema 와 일치하지 않는 컬럼 검증
- column 존재 여부 확인, column null 값 여부 확인을 위해 information_schema 의 system table 들을 활용했다.
- delta table
- schema (테이블 명세서) 와 실제 적재된 테이블의 컬럼들이 매칭되는지 pyspark 로 구현하여 검증
- but, 중첩된 for 문 사용으로 연산이 느리는 이슈가 있음 -> 살펴보기
4. MLFlow opensource 에서 설치 & deploy 해보기
5. 알고리즘 / sql 스터디 시작..!
728x90
'Data Engineering' 카테고리의 다른 글
데이터 인프라 이해하기, Spark + HDFS + Hive (0) | 2024.02.17 |
---|---|
[LLM] OpenSearch 로 챗봇의 RAG 개발하기 (0) | 2023.12.10 |
[Apache Airflow] Airflow 설치하기 (0) | 2023.10.22 |
[Colab] 코랩 런타임 연결 끊김 방지하기 (0) | 2023.07.23 |
빅데이터로 성공하기 (서가명강 조성준 교수님 강의) 요약 (0) | 2023.04.02 |