코딩일기

[Review] 데이터 분석을 위한 SQL 래시피 (feat. 가사키 나가토, 다미야 나오토) 본문

Code/Book

[Review] 데이터 분석을 위한 SQL 래시피 (feat. 가사키 나가토, 다미야 나오토)

daje 2021. 7. 5. 15:29
728x90
반응형

 

출처 : 이미지 링크 참조

 

 

안녕하십니까 다제 입니다. 

오늘부터 데이터 분석을 위한 SQL 래시피를 조금씩 꾸준히 읽어가려고 합니다. 

읽고 학습한 내용은 바로 포스팅 해야겠죠?

 

[2021.07.05 학습내용]

1. 분석 시스템 종류 

1) PostgreSQL

 -. 오픈소스 RDB, 확장성이 높음 

 -. 다양한 플랫폼을 지원하며, GUI 인스톨러가 제공됨 

 -. 표준 SQL을 준수하며, 윈도우 함수, CTE 등 분석에 필수적으로 사용되는 구문이 구현되어 있음 

 

2) Spark SQL

 -. 오픈소스 프레임워크로 무료로 사용 가능

 -. 기계학습, 그래프 처리, 실시간 스트리밍 등의 다양한 처리를 쉽게 분산 처리함 

 -. 다양한 언어(파이썬, 스칼라, 자바, R)를 지원하며, 쉽게 import 할 수 있음 

 -. 데이터를 작은 모듈로 분할하여 다양한 처리 가능 

 

3)Apache Hive

 -. RDB에서 대량의 데이터를 처리할 때 브틀넥이 발생하여, 이를 해결하기 위해 출현함

 -. 분산 파일 시스템을 사용하며, 각 디스크에서 동시에 데이터를 읽어 들여 고속으로 대량 데이터 처리 가능 

 -. UDF(Used - Defined Function)을 활용하여 문자열 처리 가능 

 -. 동적으로 데이터를 정의할 수 있음

 -. 파일 기반 시스템이므로 특정 레코드 하나를 변경하거나 제거하는 것이 어려움

 -. 스루풋을 높이기 위한 아키텍처를 가지고 있어 리액턴시가 낮은 처리를 요구하는 경우에는 적합하지 않음 

 -. 인덱스도 default로 존재하지 않음 

 

4) Amazon Redshift

 -. 컬럼 기반 스토리지 사용  

 -. 클라우드 환경이기에 용량 확정성이 매우 좋음

 -. 사용시간 단위로 비용이 발생됨

 -. 성능튜닝, 비용절감을 위해서는 최적의 노드 수와 스펙을 예측해서 인스턴스의 실행과 종료 관리 필요

 

[2021.07.06 학습내용] -> 키워드들만 기재하고 이를 보고 손코딩을 해보기 위한 노트 ( Hive, SparkSQL 기준) 

2. 코드를 레이블로 변경하는 쿼리

3. 로그 데이터에서 url의 요소를 추출하는 방법 

 -. timestamp와 HOST를 추출하는 쿼리 

 -. timestamp, url, path, id를 추출하는 쿼리

 -. timestamp, url, path1, path2를 추출하는 쿼리

4. 로그 데이터에서 날짜 정보를 추출하는 방법 

 -. 현재날짜와  stamp 추출하는 쿼리 

 -. 지정한 값의 날짜와 시간 데이터 추출하는 쿼리 ( 2개의 정답 )

 -. 날짜와 시간에서 특정 필드 추출하는 쿼리

 -. 컬럼간의 연산 시, null을 포함하고 있는 경우 기재해야하는 쿼리

 

 

 

728x90
반응형
Comments