import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd 
import seaborn as sns 

from scipy import stats 
from sklearn.datasets import load_boston 
import warnings 
warnings.filterwarnings('ignore')


boston = load_boston()
boston_df = pd.DataFrame(boston.data, columns = boston.feature_names)
boston_df['Price'] = boston.target


boston_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  Price    506 non-null    float64
dtypes: float64(14)
memory usage: 55.5 KB


fig, axs = plt.subplots(figsize=(16,8), ncols=4, nrows=2)

features = ['RM', 'ZN', 'INDUS', 'NOX', 'AGE', 'PTRATIO', 'LSTAT','RAD']

for i, feature in enumerate(features):
    row = int(i/4)
    col = i % 4  
    sns.regplot(x=feature, y='Price', data=boston_df, ax=axs[row][col])


from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression 
from sklearn.metrics import mean_squared_error, r2_score


X = boston_df.drop('Price', axis=1)
y = boston_df['Price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=156)


lr = LinearRegression()
lr.fit(X_train, y_train)

print('training set에서의 성능')
y_train_predict = lr.predict(X_train)
mse = mean_squared_error(y_train, y_train_predict)
print('rmse: {0:.3f}'.format(np.sqrt(mse)))

print('test set에서의 성능')
y_test_predict = lr.predict(X_test)
mse = mean_squared_error(y_test, y_test_predict)
print('rmse: {0:.3f}'.format(np.sqrt(mse)))

training set에서의 성능
rmse: 4.943
test set에서의 성능
rmse: 4.159


from sklearn.preprocessing import PolynomialFeatures


# 다항변형기로 데이터를 다항회귀를 위해 가공한다  
polynomial_transformer = PolynomialFeatures(2)
polynomial_data = polynomial_transformer.fit_transform(boston.data)

print(polynomial_data.shape)
polynomial_data

(506, 105)

array([[1.00000000e+00, 6.32000000e-03, 1.80000000e+01, ...,
        1.57529610e+05, 1.97656200e+03, 2.48004000e+01],
       [1.00000000e+00, 2.73100000e-02, 0.00000000e+00, ...,
        1.57529610e+05, 3.62766600e+03, 8.35396000e+01],
       [1.00000000e+00, 2.72900000e-02, 0.00000000e+00, ...,
        1.54315409e+05, 1.58310490e+03, 1.62409000e+01],
       ...,
       [1.00000000e+00, 6.07600000e-02, 0.00000000e+00, ...,
        1.57529610e+05, 2.23851600e+03, 3.18096000e+01],
       [1.00000000e+00, 1.09590000e-01, 0.00000000e+00, ...,
        1.54802902e+05, 2.54955600e+03, 4.19904000e+01],
       [1.00000000e+00, 4.74100000e-02, 0.00000000e+00, ...,
        1.57529610e+05, 3.12757200e+03, 6.20944000e+01]])


polynomial_feature_names = polynomial_transformer.get_feature_names(boston.feature_names)


X = pd.DataFrame(polynomial_data, columns=polynomial_feature_names)
y = pd.DataFrame(boston.target, columns=['Price']) 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)


lr = LinearRegression()
lr.fit(X_train, y_train)

print('training set에서의 성능')
y_train_predict = lr.predict(X_train)
mse = mean_squared_error(y_train, y_train_predict)
print('rmse: {0:.3f}'.format(np.sqrt(mse)))

print('test set에서의 성능')
y_test_predict = lr.predict(X_test)
mse = mean_squared_error(y_test, y_test_predict)
print('rmse: {0:.3f}'.format(np.sqrt(mse)))

training set에서의 성능
rmse: 2.425
test set에서의 성능
rmse: 3.197


from sklearn.model_selection import cross_val_score 
from sklearn.ensemble import RandomForestRegressor


rf = RandomForestRegressor(random_state=0, n_estimators=1000)

neg_mse_scores = cross_val_score(rf, X, y, scoring='neg_mean_squared_error', cv=5)
rmse_scores = np.sqrt(-1 * neg_mse_scores)
avg_rmse = np.mean(rmse_scores)
avg_rmse

4.386593953202736


def get_rmse(model, X, y): 
    neg_mse_scores = cross_val_score(model, X, y, scoring='neg_mean_squared_error', cv=5)
    rmse_scores = np.sqrt(-1 * neg_mse_scores)
    avg_rmse = np.mean(rmse_scores)
    print(model.__class__.__name__)
    print('5 교차 검증의 평균 rmse: {0:.3f}'.format(avg_rmse))


X = boston_df.drop('Price', axis=1)
y = boston_df['Price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=156)


from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import GradientBoostingRegressor 
from xgboost import XGBRegressor 
from lightgbm import LGBMRegressor 

dt_reg = DecisionTreeRegressor(random_state=0, max_depth=4)
rf_reg = RandomForestRegressor(random_state=0, n_estimators=1000)
gb_reg = GradientBoostingRegressor(random_state=0, n_estimators=1000)
xgb_reg = XGBRegressor(n_estimators=1000)
lgb_reg =LGBMRegressor(n_estimators=1000)

models = [dt_reg, rf_reg, gb_reg, xgb_reg, lgb_reg]

for model in models: 
    get_rmse(model, X, y)

DecisionTreeRegressor
5 교차 검증의 평균 rmse: 5.978
RandomForestRegressor
5 교차 검증의 평균 rmse: 4.423
GradientBoostingRegressor
5 교차 검증의 평균 rmse: 4.269
[06:17:32] WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated in favor of reg:squarederror.
[06:17:32] WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated in favor of reg:squarederror.
[06:17:33] WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated in favor of reg:squarederror.
[06:17:33] WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated in favor of reg:squarederror.
[06:17:33] WARNING: /workspace/src/objective/regression_obj.cu:152: reg:linear is now deprecated in favor of reg:squarederror.
XGBRegressor
5 교차 검증의 평균 rmse: 4.089
LGBMRegressor
5 교차 검증의 평균 rmse: 4.646


import seaborn as sns 

rf_reg = RandomForestRegressor(n_estimators=1000)

rf_reg.fit(X, y)

s = pd.Series(data=rf_reg.feature_importances_, index=X.columns).sort_values(ascending=False)
sns.barplot(x=s, y=s.index)

<matplotlib.axes._subplots.AxesSubplot at 0x7f093ef60250>

KFold 교차 검증과 GridSearchCV (0)	2022.11.18
기본 지도 학습 알고리즘 (2) 분류 (0)	2022.11.18
정규화와 모델 평가 (0)	2022.11.18
데이터 전처리 (0)	2022.11.18
Colab과 Kaggle 연결 (0)	2022.11.18

hayley

기본 지도 학습 알고리즘 (1) 회귀

선형 회귀¶

Gradient Descent¶

다항 회귀¶

회귀 트리¶

'machine_learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바