10주 1일차 TIL 정리
10주 1일차에는 SQL 오프라인 강의의 첫 시간으로, 데이터베이스 구조 및 ERD 해석에 대해 학습하였다.
※ SQL을 활용한 데이터분석 ※
1. 분석 목적 설정
2. 지표 설정 및 분석 계획
3. 데이터 추출/정제/가공/분석
↓ BI도구, Python, R, xlsx 등
4. 리포트 작성 및 발표
분석 목적 설정 → 지표 설정 + 분석 계획
질문 질문에 답하기 위한 분석지표 설정 답을 위한 데이터는 어디에 있는가?
※ 데이터의 종류와 ETL, DW ※
Database ┐
Database ├ → ETL → Data Enterprise Warehouse
Database ┘
* ETL: Extract, Transform, Load
* DW: 여러 시스템의 데이터를 하나의 저장소에 통합
데이터의 종류에 따른 특성
- 업무 데이터: Realtime, 정합성, 정확도, 정규화
마스터데이터(정보데이터): 고객정보, 상품정보, 카테고리정보 등
트랜젝션 데이터(행동데이터): 구매, 배송, 리뷰작성 등
※ ERD의 표현 ※
-◇ : 0~1
- : 1
-● : 0~N
(경우의 수로 생각해도 괜찮음!)
p
-● : 1~N
ㅡ : 식별관계(둘 다 primary key로 들어가있음)
-- : 비식별관계(둘의 primary key가 다르다)
① ②
eg) category.cageory_id ◇----● products.category_id
- 1에는 여러 개의 2가 존재할 수 있다.
- 1이 없는 2가 있을 수 있다
- 2가 없는 1이 있을 수 있다
- 1과 2는 둘 다 cateogry_id를 primary key로 사용하진 않는다.
※ 속성 ※
속성(attribute, column)
기본속성: 업무로부터 추출한 속성(제품명, 판매날짜 등)
설계속성: 모델링을 위해 생성된 속성(판매아이디, 제품코드 등)
파생속성: 존재하는 속성들을 혼합해 만들어진 속성
1 정규화: 중복의 제거
eg)
2011/01/01 1개 400원
2011/01/01 1개 600원
→ 2011/01/01 ┬→ 1개 ┳ 400원
┘ └ 600원
2정규화: 식별자의 선별
3정규화: 일반속성 항목 중 코드화 할 수 있는 속성 분리