preprocessing
데이터 구간별 범주화하기 - cut(), crosstab()
hayleyhell
2023. 2. 3. 10:22
1. pd.cut() 함수를 이용해 구간을 나눌 수 있다.
# 16세이상~20세 미만, 20세 이상~30세 미만 등으로 구분한다
bins = [16, 20, 30, 40, 50]
pd.cut(player_data_04['age'], bins)

# 16세이상~20세 미만, 20세 이상~30세 미만 등으로 구분한다
bins = [16, 20, 30, 40, 50]
# 각 구간의 이름을 정의한다
bins_label = ['10', '20', '30', '40']
pd.cut(player_data_04['age'], bins, labels=bins_label)

2. 범주형 데이터 2개를 비교하는 교차분석표, crosstab
crosstab()은 결과를 항상 데이터프레임으로 반환하기 때문에, groupby()보다 더 쉽게 집계할 수 있다.
# 세대에 따른 일자 고객 숫자 집계하기
pd.crosstab(player_data_04['Time_stamp'], player_data_04['Generation'])
