一、数据集

  1. 公司积累了一批员工应用的使用数据,要根据不同维度划分不同的员工群体。如经常访问招聘网站和网络邮件的员工可能会有离职倾向,这类群体需要重点关注。
  2. 该数据集中含有员工访问CRM、云盘、招聘等特征信息。
    图1

二、数据预处理

  1. 想通过CRM、云盘、招聘、网络邮件划分群体,选择这几个字段。
  2. 由于不同字段数值差别大,进行标准化处理。
    图2
  3. 处理后的数据如下
    图3

三、聚类

  1. 选择聚类算法
    这里默认选择k-means算法
  2. 选择聚类字段
    图4
  3. 选择要分成几类
    图5

四、可视化展示

  1. 选择纬度
    选择2维
  2. 选择邮件为X轴,招聘网站为Y轴。
    可以看到访问招聘网站较多的同时访问邮件也较多的人比较集中。也说明这使用这几个参数进行分类效果较好。
    图6
  3. 选择CRM为X轴,云盘为Y轴。
    可以看到比较分散,说明这两个分类效果较差。
    图7