웅진 STARTERS 부트캠프

10주 1일차 TIL 정리

WoodenStella 2023. 4. 10. 17:58

10주 1일차에는 SQL 오프라인 강의의 첫 시간으로, 데이터베이스 구조 및 ERD 해석에 대해 학습하였다.


SQL을 활용한 데이터분석


1. 분석 목적 설정
2. 지표 설정 및 분석 계획
3. 데이터 추출/정제/가공/분석
     ↓   BI도구, Python, R, xlsx 등
4. 리포트 작성 및 발표

 

분석 목적 설정        → 지표 설정                                          + 분석 계획
질문                        질문에 답하기 위한 분석지표 설정        답을 위한 데이터는 어디에 있는가?

 

 


데이터의 종류와 ETL, DW


Database ┐
Database ├ → ETL → Data Enterprise Warehouse
Database ┘

* ETL: Extract, Transform, Load
* DW: 여러 시스템의 데이터를 하나의 저장소에 통합


데이터의 종류에 따른 특성
  - 업무 데이터: Realtime, 정합성, 정확도, 정규화
    마스터데이터(정보데이터): 고객정보, 상품정보, 카테고리정보 등
    트랜젝션 데이터(행동데이터): 구매, 배송, 리뷰작성 등

 


※ ERD의 표현 ※


-◇  : 0~1
- : 1
-● : 0~N

 (경우의 수로 생각해도 괜찮음!)


 p
-● : 1~N

ㅡ : 식별관계(둘 다 primary key로 들어가있음)
-- : 비식별관계(둘의 primary key가 다르다)

 

 

                    ①                                          ②
eg) category.cageory_id  ◇----●  products.category_id

  - 1에는 여러 개의 2가 존재할 수 있다.
  - 1이 없는 2가 있을 수 있다
   - 2가 없는 1이 있을 수 있다
   - 1과 2는 둘 다 cateogry_id를 primary key로 사용하진 않는다.

 


속성


속성(attribute, column)
기본속성: 업무로부터 추출한 속성(제품명, 판매날짜 등)
설계속성: 모델링을 위해 생성된 속성(판매아이디, 제품코드 등)
파생속성: 존재하는 속성들을 혼합해 만들어진 속성

1 정규화: 중복의 제거


eg)
2011/01/01  1개   400원
2011/01/01  1개   600원

→ 2011/01/01 ┬→ 1개 ┳ 400원
                   ┘         └ 600원

2정규화: 식별자의 선별

3정규화: 일반속성 항목 중 코드화 할 수 있는 속성 분리