안녕하십니까 다제 입니다.
오늘부터 데이터 분석을 위한 SQL 래시피를 조금씩 꾸준히 읽어가려고 합니다.
읽고 학습한 내용은 바로 포스팅 해야겠죠?
[2021.07.05 학습내용]
1. 분석 시스템 종류
1) PostgreSQL
-. 오픈소스 RDB, 확장성이 높음
-. 다양한 플랫폼을 지원하며, GUI 인스톨러가 제공됨
-. 표준 SQL을 준수하며, 윈도우 함수, CTE 등 분석에 필수적으로 사용되는 구문이 구현되어 있음
2) Spark SQL
-. 오픈소스 프레임워크로 무료로 사용 가능
-. 기계학습, 그래프 처리, 실시간 스트리밍 등의 다양한 처리를 쉽게 분산 처리함
-. 다양한 언어(파이썬, 스칼라, 자바, R)를 지원하며, 쉽게 import 할 수 있음
-. 데이터를 작은 모듈로 분할하여 다양한 처리 가능
3)Apache Hive
-. RDB에서 대량의 데이터를 처리할 때 브틀넥이 발생하여, 이를 해결하기 위해 출현함
-. 분산 파일 시스템을 사용하며, 각 디스크에서 동시에 데이터를 읽어 들여 고속으로 대량 데이터 처리 가능
-. UDF(Used - Defined Function)을 활용하여 문자열 처리 가능
-. 동적으로 데이터를 정의할 수 있음
-. 파일 기반 시스템이므로 특정 레코드 하나를 변경하거나 제거하는 것이 어려움
-. 스루풋을 높이기 위한 아키텍처를 가지고 있어 리액턴시가 낮은 처리를 요구하는 경우에는 적합하지 않음
-. 인덱스도 default로 존재하지 않음
4) Amazon Redshift
-. 컬럼 기반 스토리지 사용
-. 클라우드 환경이기에 용량 확정성이 매우 좋음
-. 사용시간 단위로 비용이 발생됨
-. 성능튜닝, 비용절감을 위해서는 최적의 노드 수와 스펙을 예측해서 인스턴스의 실행과 종료 관리 필요
[2021.07.06 학습내용] -> 키워드들만 기재하고 이를 보고 손코딩을 해보기 위한 노트 ( Hive, SparkSQL 기준)
2. 코드를 레이블로 변경하는 쿼리
3. 로그 데이터에서 url의 요소를 추출하는 방법
-. timestamp와 HOST를 추출하는 쿼리
-. timestamp, url, path, id를 추출하는 쿼리
-. timestamp, url, path1, path2를 추출하는 쿼리
4. 로그 데이터에서 날짜 정보를 추출하는 방법
-. 현재날짜와 stamp 추출하는 쿼리
-. 지정한 값의 날짜와 시간 데이터 추출하는 쿼리 ( 2개의 정답 )
-. 날짜와 시간에서 특정 필드 추출하는 쿼리
-. 컬럼간의 연산 시, null을 포함하고 있는 경우 기재해야하는 쿼리
'Code > Book' 카테고리의 다른 글
[책 리뷰] Demand(feat. CEO가 꼭 읽어야 할 책) (0) | 2022.06.02 |
---|---|
1. Hands-On Machine Learning with Scikit-Learn, Keras&TensorFlow (0) | 2021.11.09 |
[Review] 데이터읽기의 기술 (feat. 차현나 데이터사이언스, 후기) (0) | 2021.05.31 |
[Review] SQL개발자 이론서 +기출문제, SQL자격검정 실전문제집(feat. SQLD, 후기) (0) | 2021.05.29 |
[Review] 화성에서 온 남자 금성에서 온 여자 (feat. 존 그레이, 장기연애, 부부갈등 추천도서, 서평) (0) | 2021.05.23 |