데이터 다듬기 5

데이터프레임 메소드 정리2

저번에 1편에 이어 더 해야겠다!!! 정렬 - 인덱스를 기준으로 정렬하는 방법과 특정 열을 기준으로 정렬하는 방법이 있다.sort_values() 메서드로 특정 열을 기준으로 정렬합니다.ascending 옵션을 설정해 오름차순, 내림차순을 설정할 수 있습니다.ascending=True: 오름차순 정렬(기본값)ascending=False: 내림차순 정렬  # 단일 열 정렬tip.sort_values(by='total_bill', ascending=False)# 복합 열 정렬tip.sort_values(by=['total_bill', 'tip'], ascending=[False, False])   기본 집계- 고윳값, 최빈값, 합, 평균, 최댓값, 최솟값 등을 확인하는 방법 # day 열 고윳값 확인tip[..

데이터프레임 변경하기

데이터 분석을하기 위해서 전처리 과정이 꼭 필요하다.전처리 과정중 꼭 알아야하는 데이터프레임 변경하는법을 알아보자..    ~목차~열 이름 변경열 추가열 삭제범주값 변경범주값 만들기결측치 찾기결측치 제거결측치 채우기가변수(Dummy Variable) 만들기1. 열 이름 변경 일부만 선택해서 변경하는 방법과 한번에 모두 바꾸는 방법이 있다. (1) 선택해서 변경하기 - rename() 사용하기tip.rename(columns={'바꾸고싶은 열 이름' : '바꿀 열 이름', '바꾸고싶은 열 이름2' : '바꿀 열 이름'}, inplace = True)이런식으로 사용한다. inplace를 True로 해야 반영된다.   (2) 한번에 모두 바꾸고 싶을때tip.columns = ..

데이터프레임 간단한 메소드 정리

데이터프레임관련 여러 메소드와 옵션, 속성 몇가지를 알아보자.. ~목차~head(): 상위 데이터 확인tail(): 하위 데이터 확인shape: 데이터프레임 크기index: 인덱스 정보 확인values: 값 정보 확인columns: 열 정보 확인dtypes: 열 자료형 확인info(): 열에 대한 상세한 정보 확인describe(): 기술통계정보 확인  head() 와 tail()은 전장에서 했음으로 생략하겟다.   크기확인 속성 - 데이터 양을 확인df.shape 이렇게 데이터프레임명 뒤에 .shape를 입력하면 (rows, cols) 값을 갖는 튜플 형태로 출력되어 확인가능하다.    열, 행 정보 보기 - 인덱스 확인df.index .index를 입력하면 처음인덱스와 마지막 인덱스를 확인할 수 있고..

데이터프레임

데이터 처리, 조회, 분석을 위해 데이터프레임을 사용한다.형태는 엑셀처럼 생겼고, csv 파일, 엑셀 파일, DB에서 읽어와서 사용한다. (직접 만들수도 있다.)가로 이름을 열이름= 컬럼, 세로이름을 행이름=인덱스 라고 한다. 0. 파이썬에서 데이터프레임을 쓰기한 라이브러리import pandas as pd   1. 리스트로 데이터프레임 만들기 # 2차원 리스트 만들기stock = [[94500, 92100, 92200, 92300], [96500, 93200, 95900, 94300], [93400, 91900, 93400, 92100], [94200, 92100, 94100, 92400], [94500, 92500, 94300, 92600]]#..

데이터 다듬기 2024.09.17

파이썬의 배열 numpy 정리

파이썬에서 배열을 쓰려면 numpy로 써야한다 # 라이브러리 불러오기import numpy as np 리스트가 있는데, 굳이 라이브러리를 불러와서 배열을 쓰는이유는 리스트는 못하는걸 할 수 있기 때문이다.예를들어서 a = [1,2,3,4,5]a = a * 2 리스트는 이걸 출력하면 하나씩 곱하는게 아니라 리스트 자체를 한번 더 이어붙여서[1,2,3,4,5,1,2,3,4,5]이렇게 출력된다. 그리고 np는 바로 짝수를 골라서 출력도 가능하다. a = np.array([1,2,3,4,5])print(a[a % 2 == 0])   배열 만들기-> np.array()함수로 만들면 된다.# 1차원 리스트a1 = [1, 2, 3, 4, 5]# 배열로 변환b1 = np.array(a1)# 2차원 리스트a2 = [[1..

데이터 다듬기 2024.09.17