import warnings

warnings.filterwarnings('ignore')

from sklearn.tree import DecisionTreeClassifier
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 0, 0, 1, 1]

model = DecisionTreeClassifier(random_state=0)
model.fit(X, y)

print(model.predict([[5, 5]]))

[0]

print(model.predict([[5, 5], [7, 7], [9, 9]]))

[0 0 1]

import os  # 这两行是手动进行环境变量配置，防止在本机环境的变量部署失败
os.environ['PATH'] = os.pathsep + r'D:\softwares\Graphviz\bin'

# 1.如果不用显示中文，那么通过如下代码即可。安装graphviz稍微有些麻烦，可以参考上面的参考链接。
from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(model, out_file=None, class_names=['0', '1'])
graph = graphviz.Source(dot_data)
graph  # 通过graph.render('决策树可视化')可在代码所在文件夹生成决策树可视化PDF文件

from sklearn.tree import DecisionTreeClassifier
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 0, 0, 1, 1]

model = DecisionTreeClassifier()  # 不设置random_state参数
model.fit(X, y)

# 生成可视化结果
dot_data = export_graphviz(model, out_file=None, class_names=['0', '1'])
graph = graphviz.Source(dot_data)
graph

from sklearn.tree import DecisionTreeClassifier
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 0, 0, 1, 1]

model = DecisionTreeClassifier()  # 不设置random_state参数
model.fit(X, y)

# 生成可视化结果
dot_data = export_graphviz(model, out_file=None, class_names=['0', '1'])
graph = graphviz.Source(dot_data)
graph

from sklearn.tree import DecisionTreeRegressor
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 2, 3, 4, 5]

model = DecisionTreeRegressor(max_depth=2, random_state=0)
model.fit(X, y)

print(model.predict([[9, 9]]))

[4.5]

# 生成可视化结果
dot_data = export_graphviz(model, out_file=None)  # 回归决策树就没有class分类参数了
graph = graphviz.Source(dot_data)
graph

import pandas as pd
df = pd.read_excel('员工离职预测模型.xlsx')
df.head()

df = df.replace({'工资': {'低': 0, '中': 1, '高': 2}})
df.head()

X = df.drop(columns='离职') 
y = df['离职']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth=3, random_state=123) 
model.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, random_state=123)

DecisionTreeClassifier(max_depth=3, random_state=123)

y_pred = model.predict(X_test)
print(y_pred[0:100])

[0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 0 0 1 0
 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 1 1 0 0 0]

# 通过构造DataFrame进行对比
a = pd.DataFrame()  # 创建一个空DataFrame 
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
a.head()

# 如果要查看整体的预测准确度
from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
print(score)

0.9573333333333334

# 或者用模型自带的score函数查看预测准确度
model.score(X_test, y_test)

0.9573333333333334

y_pred_proba = model.predict_proba(X_test)
print(y_pred_proba[0:5])

[[0.98526077 0.01473923]
 [0.98526077 0.01473923]
 [0.28600613 0.71399387]
 [0.98526077 0.01473923]
 [0.92283214 0.07716786]]

b = pd.DataFrame(y_pred_proba, columns=['不离职概率', '离职概率']) 
b.head()

y_pred_proba[:,1]

array([0.01473923, 0.01473923, 0.71399387, ..., 0.01473923, 0.94594595,
       0.01473923])

from sklearn.metrics import roc_curve
fpr, tpr, thres = roc_curve(y_test, y_pred_proba[:,1])

a = pd.DataFrame()  # 创建一个空DataFrame 
a['阈值'] = list(thres)
a['假警报率'] = list(fpr)
a['命中率'] = list(tpr)
a

import matplotlib.pyplot as plt
plt.plot(fpr, tpr)
plt.show()

#求AUC值
from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_test, y_pred_proba[:,1])
print(score)

0.9736722483245008

model.feature_importances_

array([0.        , 0.59810862, 0.14007392, 0.10638659, 0.00456495,
       0.15086592])

# 通过DataFrame进行展示，并根据重要性进行倒序排列
features = X.columns  # 获取特征名称
importances = model.feature_importances_  # 获取特征重要性

# 通过二维表格形式显示
importances_df = pd.DataFrame()
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances
importances_df.sort_values('特征重要性', ascending=False)

# 1.如果不用显示中文，那么通过如下代码即可：
# !pip3 install pygraphviz
from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(model, out_file=None, class_names=['0', '1'])
graph = graphviz.Source(dot_data)

# graph.render("result")  # 导出成PDF文件
# print('可视化文件result.pdf已经保存在代码所在文件夹！')

graph

# 添加名称（feature_names）和填充颜色（filled=True）
dot_data = export_graphviz(model, out_file=None, feature_names=['income', 'satisfication', 'score', 'project_num', 'hours', 'year'], class_names=['0', '1'], filled=True)  
graph = graphviz.Source(dot_data)

graph

# 2.如果想显示中文，需要使用如下代码
from sklearn.tree import export_graphviz
import graphviz

# 生成dot_data
dot_data = export_graphviz(model, out_file=None, feature_names=X_train.columns, class_names=['不离职', '离职'], rounded=True, filled=True)

# # 将生成的dot_data内容导入到txt文件中
# f = open('dot_data.txt', 'w')
# f.write(dot_data)
# f.close()

# 修改字体设置，避免中文乱码！
# import re
# f_old = open('dot_data.txt', 'r')
# f_new = open('dot_data_new.txt', 'w', encoding='utf-8')
# for line in f_old:
#     if 'fontname' in line:
#         font_re = 'fontname=(.*?)]'
#         old_font = re.findall(font_re, line)[0]
#         line = line.replace(old_font, 'SimHei')
#     f_new.write(line)
# f_old.close()
# f_new.close()

graph = graphviz.Source(dot_data)

graph

# # 以PNG的图片形式存储生成的可视化文件
# os.system('dot -Tpng dot_data_new.txt -o 决策树模型.png')  
# print('决策树模型.png已经保存在代码所在文件夹！')

# # 以PDF的形式存储生成的可视化文件
# os.system('dot -Tpdf dot_data_new.txt -o 决策树模型.pdf')  
# print('决策树模型.pdf已经保存在代码所在文件夹！')

# 通过DataFrame进行展示，并根据重要性进行倒序排列
features = X.columns  # 获取特征名称
importances = model.feature_importances_  # 获取特征重要性

# 通过二维表格形式显示
importances_df = pd.DataFrame()
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances
importances_df.sort_values('特征重要性', ascending=False)

#5.2的模型搭建代码

# 1.读取数据与简单预处理
import pandas as pd
df = pd.read_excel('员工离职预测模型.xlsx')
df = df.replace({'工资': {'低': 0, '中': 1, '高': 2}})

# 2.提取特征变量和目标变量
X = df.drop(columns='离职') 
y = df['离职']

# 3.划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

# 4.模型训练及搭建
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth=3, random_state=123)
model.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, random_state=123)

DecisionTreeClassifier(max_depth=3, random_state=123)

from sklearn.model_selection import cross_val_score
acc = cross_val_score(model, X, y, cv=5, scoring=None) #cv=5, 交叉验证5次, 每次随机取4/5的数据用于训练, 1/5的数据用于测试, 默认为3, scoring不设置参数默认为accuracy(准确度)作为评估指标

#5次交叉验证的打分
print(acc)

acc.mean()

[0.96666667 0.96066667 0.959      0.96233333 0.91366667]

np.float64(0.9524666666666667)

from sklearn.model_selection import cross_val_score
acc = cross_val_score(model, X, y, scoring='roc_auc', cv=5)#以ROC曲线的AUC值作为评估标准

print(acc)

acc.mean()

[0.97146884 0.9674637  0.96641351 0.97047305 0.95030156]

np.float64(0.9652241309284616)

from sklearn.model_selection import GridSearchCV  # 网格搜索合适的超参数

# 指定参数k的范围
parameters = {'max_depth': [3, 5, 7, 9, 11]}
# 构建决策树分类器
model = DecisionTreeClassifier()  # 这里因为要进行参数调优，所以不需要传入固定的参数了

# 网格搜索
grid_search = GridSearchCV(model, parameters, scoring='roc_auc', cv=5)   # cv=5表示交叉验证5次，默认值为3；scoring='roc_auc'表示通过ROC曲线的AUC值来进行评分，默认通过准确度评分
grid_search.fit(X_train, y_train)

# 输出参数的最优值
grid_search.best_params_

{'max_depth': 7}

# 通过如下代码可以查看GridSearchCV函数的官方介绍
# GridSearchCV?

import numpy as np
parameters = {'max_depth': np.arange(1, 10, 2)}

# 根据max_depth=7来重新搭建模型
model = DecisionTreeClassifier(max_depth=7)  # 这个max_depth参数是可以调节的，之后讲
model.fit(X_train, y_train) 

# 查看整体预测准确度
y_pred = model.predict(X_test)
from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
print(score)

0.982

# 查看新的AUC值
# 预测不违约&违约概率
y_pred_proba = model.predict_proba(X_test)
y_pred_proba[:,1]  # 如果想单纯的查看违约概率，即查看y_pred_proba的第二列

# 绘制ROC曲线，计算AUC值
from sklearn.metrics import roc_curve
fpr, tpr, thres = roc_curve(y_test, y_pred_proba[:,1])

# 绘制ROC曲线
import matplotlib.pyplot as plt
plt.plot(fpr, tpr)
plt.show()

# 计算AUC值
from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_test, y_pred_proba[:,1])
print(score)

0.9878194468097895

# 查看此时的变量重要性
model.feature_importances_

array([0.00059222, 0.52722508, 0.13163818, 0.1116004 , 0.07764762,
       0.1512965 ])

# 一一对应
features = X.columns
importances = model.feature_importances_

# 通过表格形式显示
importances_df = pd.DataFrame()  # 创建空二维表格，为之后准备
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances

importances_df.sort_values('特征重要性', ascending=False)

from sklearn.model_selection import GridSearchCV

# 指定决策树分类器中各个参数的范围
parameters = {'max_depth': [5, 7, 9, 11, 13], 'criterion':['gini', 'entropy'], 'min_samples_split':[5, 7, 9, 11, 13, 15]}
# 构建决策树分类器
model = DecisionTreeClassifier()  # 这里因为要进行参数调优，所以不需要传入固定的参数了

# 网格搜索
grid_search = GridSearchCV(model, parameters, scoring='roc_auc', cv=5)
grid_search.fit(X_train, y_train)

# 获得参数的最优值
grid_search.best_params_

{'criterion': 'entropy', 'max_depth': 11, 'min_samples_split': 13}

# 根据多参数调优的结果来重新搭建模型
model = DecisionTreeClassifier(criterion='entropy', max_depth=11, min_samples_split=13)
model.fit(X_train, y_train) 

# 查看整体预测准确度
y_pred = model.predict(X_test)
from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
print(score)

0.9823333333333333

# 查看新的AUC值
# 预测不违约&违约概率
y_pred_proba = model.predict_proba(X_test)
y_pred_proba[:,1]  # 如果想单纯的查看违约概率，即查看y_pred_proba的第二列

score = roc_auc_score(y_test, y_pred_proba[:,1])
print(score)

0.9880266927800764

	工资	满意度	考核得分	工程数量	月工时	工龄	离职
0	低	3.8	0.53	2	157	3	1
1	中	8.0	0.86	5	262	6	1
2	中	1.1	0.88	7	272	4	1
3	低	7.2	0.87	5	223	5	1
4	低	3.7	0.52	2	159	3	1

	工资	满意度	考核得分	工程数量	月工时	工龄	离职
0	0	3.8	0.53	2	157	3	1
1	1	8.0	0.86	5	262	6	1
2	1	1.1	0.88	7	272	4	1
3	0	7.2	0.87	5	223	5	1
4	0	3.7	0.52	2	159	3	1

	阈值	假警报率	命中率
0	inf	0.000000	0.000000
1	1.000000	0.000000	0.247110
2	0.945946	0.008232	0.677746
3	0.713994	0.038128	0.942197
4	0.077168	0.159879	0.969653
5	0.059406	0.171577	0.972543
6	0.045763	0.240035	0.976879
7	0.014739	1.000000	1.000000

	特征名称	特征重要性
1	满意度	0.598109
5	工龄	0.150866
2	考核得分	0.140074
3	工程数量	0.106387
4	月工时	0.004565
0	工资	0.000000

	特征名称	特征重要性
1	满意度	0.598109
5	工龄	0.150866
2	考核得分	0.140074
3	工程数量	0.106387
4	月工时	0.004565
0	工资	0.000000

第05章决策树模型¶

5.1 决策树模型的基本原理¶

5.1.1 决策树模型简介¶

5.1.2 决策树模型的建树依据¶

补充知识点: 信息熵¶

5.1.3 决策树模型的代码实现¶

分类决策树模型¶

补充知识点: 决策树可视化¶

补充知识点: random_state参数的作用解释¶

回归决策树模型¶

5.2 案例实战: 员工离职预测模型¶

5.2.1 模型搭建¶

5.2.2 模型预测及评估¶

5.2.3 决策树模型可视化呈现及决策树要点理解¶

5.3 参数调优: K折交叉验证与GridSearch网格搜索¶

5.3.1 K折交叉验证¶

5.3.2 GridSearch网格搜索¶

单参数调优¶

多参数调优¶

	不离职概率	离职概率
0	0.985261	0.014739
1	0.985261	0.014739
2	0.286006	0.713994
3	0.985261	0.014739
4	0.922832	0.077168

	特征名称	特征重要性
1	满意度	0.527225
5	工龄	0.151297
2	考核得分	0.131638
3	工程数量	0.111600
4	月工时	0.077648
0	工资	0.000592

	预测值	实际值
0	0	0
1	0	0
2	1	1
3	0	0
4	0	0

第05章 决策树模型¶

5.1 决策树模型的基本原理¶

5.1.1 决策树模型简介¶

5.1.2 决策树模型的建树依据¶

补充知识点: 信息熵¶

5.1.3 决策树模型的代码实现¶

分类决策树模型¶

补充知识点: 决策树可视化¶

补充知识点: random_state参数的作用解释¶

回归决策树模型¶

5.2 案例实战: 员工离职预测模型¶

5.2.1 模型搭建¶

5.2.2 模型预测及评估¶

5.2.3 决策树模型可视化呈现及决策树要点理解¶

5.3 参数调优: K折交叉验证与GridSearch网格搜索¶

5.3.1 K折交叉验证¶

5.3.2 GridSearch网格搜索¶

单参数调优¶

多参数调优¶

第05章决策树模型¶