ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 10주 1일차 TIL 정리
    웅진 STARTERS 부트캠프 2023. 4. 10. 17:58

    10주 1일차에는 SQL 오프라인 강의의 첫 시간으로, 데이터베이스 구조 및 ERD 해석에 대해 학습하였다.


    SQL을 활용한 데이터분석


    1. 분석 목적 설정
    2. 지표 설정 및 분석 계획
    3. 데이터 추출/정제/가공/분석
         ↓   BI도구, Python, R, xlsx 등
    4. 리포트 작성 및 발표

     

    분석 목적 설정        → 지표 설정                                          + 분석 계획
    질문                        질문에 답하기 위한 분석지표 설정        답을 위한 데이터는 어디에 있는가?

     

     


    데이터의 종류와 ETL, DW


    Database ┐
    Database ├ → ETL → Data Enterprise Warehouse
    Database ┘

    * ETL: Extract, Transform, Load
    * DW: 여러 시스템의 데이터를 하나의 저장소에 통합


    데이터의 종류에 따른 특성
      - 업무 데이터: Realtime, 정합성, 정확도, 정규화
        마스터데이터(정보데이터): 고객정보, 상품정보, 카테고리정보 등
        트랜젝션 데이터(행동데이터): 구매, 배송, 리뷰작성 등

     


    ※ ERD의 표현 ※


    -◇  : 0~1
    - : 1
    -● : 0~N

     (경우의 수로 생각해도 괜찮음!)


     p
    -● : 1~N

    ㅡ : 식별관계(둘 다 primary key로 들어가있음)
    -- : 비식별관계(둘의 primary key가 다르다)

     

     

                        ①                                          ②
    eg) category.cageory_id  ◇----●  products.category_id

      - 1에는 여러 개의 2가 존재할 수 있다.
      - 1이 없는 2가 있을 수 있다
       - 2가 없는 1이 있을 수 있다
       - 1과 2는 둘 다 cateogry_id를 primary key로 사용하진 않는다.

     


    속성


    속성(attribute, column)
    기본속성: 업무로부터 추출한 속성(제품명, 판매날짜 등)
    설계속성: 모델링을 위해 생성된 속성(판매아이디, 제품코드 등)
    파생속성: 존재하는 속성들을 혼합해 만들어진 속성

    1 정규화: 중복의 제거


    eg)
    2011/01/01  1개   400원
    2011/01/01  1개   600원

    → 2011/01/01 ┬→ 1개 ┳ 400원
                       ┘         └ 600원

    2정규화: 식별자의 선별

    3정규화: 일반속성 항목 중 코드화 할 수 있는 속성 분리

     

    댓글

Designed by Tistory.