preprocessing

데이터 구간별 범주화하기 - cut(), crosstab()

hayleyhell 2023. 2. 3. 10:22

1.  pd.cut() 함수를 이용해 구간을 나눌 수 있다. 

# 16세이상~20세 미만, 20세 이상~30세 미만 등으로 구분한다
bins = [16, 20, 30, 40, 50] 

pd.cut(player_data_04['age'], bins)

 

 

# 16세이상~20세 미만, 20세 이상~30세 미만 등으로 구분한다
bins = [16, 20, 30, 40, 50] 

# 각 구간의 이름을 정의한다
bins_label = ['10', '20', '30', '40'] 

pd.cut(player_data_04['age'], bins, labels=bins_label)

 

 

 

2. 범주형 데이터 2개를 비교하는 교차분석표, crosstab

crosstab()은 결과를 항상 데이터프레임으로 반환하기 때문에, groupby()보다 더 쉽게 집계할 수 있다. 

 

# 세대에 따른 일자 고객 숫자 집계하기
pd.crosstab(player_data_04['Time_stamp'], player_data_04['Generation'])