Python
-
2주 1일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 13. 18:41
2주 1일차에는 기타 시각화 그래프의 종류를 마저 알아보고, 실제 데이터를 활용해 실습을 진행하였다. ※ 박스플롯 (상자수염그림) 데이터로부터 얻어진 아래의 다섯 가지 요약 수치를 사용해서 그려진다. 최소값 제 1사분위 수 (Q1) : 전체 데이터 중 하위 25%에 해당하는 값 제 2사분위 수 또는 중위수 (Q2) 제 3사분위 수 (Q3) : 전체 데이터 중 상위 25%에 해당하는 값 최대값 다른 값들과 동떨어진 값을 이상치로 표현한다. 어떤 값이 (1/4 지점의 값 - 1.5 * 사분위수 범위) 보다 작거나, 어떤 값이 (3/4 지점의 값 + 1.5 * 사분위수 범위) 보다 크면 그 값을 이상치로 정한다. 사분위수 범위 = 3/4 지점의 값 - 1/4 지점의 값 - 박스플롯에 필요한 값과 이상치 구하기..
-
1주 5일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 10. 18:12
1주 5일차의 주 내용은 파이썬 matplotlib의 pyplot, seaborn등을 활용한 데이터 시각화이다. 데이터 시각화는 다양한 상황에 맞춰 적절한 형태를 결정하는 것이 바람직하다. 상자수염그래프, 산점도, 막대그래프, 히스토그램 등 다양한 형태가 이와 같이 다양한 상황에 알맞게 할당될 수 있으며, 이에 따른 상황의 고려와 데이터가 말하고자 하는 바를 확실히 아는 태도는 필수적이다. ※ 용도에 따른 그래프 종류 - 시간의 시각화 / 선그래프(plot) - 수량 비교 시각화 / 막대그래프(bar, barh) - 비율의 시각화 / 파이차트 (pie) - 분포의 시각화 / 히스토그램 (hist) - 분포의 시각화 / 상자수염그래프 (boxplot) - 분포의 시각화 / 바이올린그래프 (violinplo..
-
1주 4일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 9. 17:44
1주 4일차의 주 내용은 파이썬 pandas를 활용한 데이터 핸들링과, 서울시 공공데이터를 활용한 실습이다. ※ 행을 열로 보내기: 데이터프레임.melt() (실습기준데이터) - 모든 열 melt: melt() df.melt() - 고정할 컬럼 지정해 melt: melt(id_vars=['컬럼명']) # name 고정 df.melt(id_vars=['name']) # name, kor 고정 df.melt(id_vars=['name','kor']) - 행으로 위치 변경할 열 지정: melt(value_vars=['컬럼명']) # kor, eng df.melt(value_vars=['kor','eng']) - 컬럼명 변경하기: melt(var_name='컬럼명', value_name='컬럼명') # subj..
-
1주 3일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 8. 18:58
1주 3일차의 주 내용은 파이썬의 Pandas 확장프로그램을 활용한 데이터 탐색방법이라 할 수 있다. 대부분의 내용이 생소했어서 오늘의 내용은 꽤나 많을 전망이다. 2일차에서 작성한 pandas의 데이터프레임과 시리즈부터 다시 한 번 보고 가자. 시리즈: 엑셀시트로 가정했을 때, 열 1개 (1차원 데이터) 데이터프레임: 엑셀시트로 가정했을 때, 시트 (2차원 데이터) 시리즈는 index와 value로 구성돼있다. - index # 시리즈의 index 가져오기 s.index # 시리즈 인덱스 지정하기 s.index = ['name','hieght','footsize'] s - value # 시리즈의 value 가져오기 s.values - 시리즈의 통계값 사용하기: 명령어(mean, min, max, med..
-
1주 2일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 7. 17:44
1주 2일차의 주 내용은 파이썬 기본기능의 연장과 개념, 확장프로그램의 활용과 pandas의 데이터프레임 생성 정도이다. 오늘도 생소하거나 처음 알게 된 부분들에 대해 기입하려고 한다. ※ 튜플을 생성할 때에, 튜플에 하나의 요소만을 넣고 마무리하기 위해서는 컴마( , )를 반드시 넣어야 한다. t1=(1) t2=(1,) print(t1,type(t1)) print(t2,type(t2)) t1과 같이 컴마를 섞지 않는 경우, int타입의 실수로 나오며, 튜플로 반환하기 위해서는 t2와 같이 컴마가 들어가야 한다. ※ 항목의 인덱스를 찾기 위해 index 코드를 사용할 수 있다. t1 = (1,2,3,4,5,6,7,8,9,10) t1.index(4) 이때 index의 변수로 들어가는 값은 튜플 혹은 리스트..
-
1주 1일차 TIL 정리웅진 STARTERS 부트캠프 2023. 2. 6. 21:54
2023년 2월 6일자로 웅진 STARTERS 부트캠프(데이터관리 직무)에 참가하게 되어, 그 학습일지를 블로그에 작성하려 한다. 1주 1일차의 주 내용은 대략의 프레임과 OT 이후 대략적인 Python 초입 학습이었다. 데이터관리라는 직무에 관련해, 데이터는 무엇일까? 또한 데이터를 어떤 방향으로 가공하며, 어떤 목적을 추구해야 할까? 간단하게 정리하면 다음과 같다. 데이터 객관적 사실을 수집해 모아둔 자료 ↓ 정보 데이터를 가공해 의미가 도출된 것 ↓ 지식 정보와 개인적 경험이 결합된 형태, 경험이 다양하듯 한 가지의 정보로도 다양히 분화할 수 있다. ↓ 지혜 지식과 아이디어가 결합된 창의적 산물의 형태. 지금까지의 개인적 인식은 데이터를 통해 정보를 도출하고, 이를 통해 자신이나 타인이 인사이트를 ..