超市用户的k-means聚类处理-创新互联

导入超市用户的数据

创新互联主营永兴网站建设的网络公司,主营网站建设方案,app开发定制,永兴h5微信小程序开发搭建,永兴网站营销推广欢迎永兴等地区企业咨询

import pandas as pd

from sklearn.preprocessing import StandardScaler #标准差标准化

com = pd.read_csv('./company.csv',encoding='ansi')

超市用户的k-means聚类处理

导入剔除异常值的函数

def box_analysis(data):

'''

进行箱线图分析,剔除异常值

:param data:

:return:

'''

qu = data.quantile(0.75)

ql = data.quantile(0.25)

iqr = qu - ql

#上限与下限 1.5可以微调

up = qu+1.5*iqr

low = ql-1.5*iqr

#进行比较运算

bool_id_1 = data<=up

bool_id_2 = data>=low

bool_num = bool_id_1 & bool_id_2

return bool_num

进行缺失值检测

print(com.isnull().sum())

检测结果无缺失值

筛选有用特征,切片处理

data = com.iloc[:,-2:]

超市用户的k-means聚类处理

箱线图分析来进行异常值检测

按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

标准化数据,量级不大,暂时不处理量级

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

把上面数据处理部分封装进函数

def built_data():

#缺失值检测

# print(com.isnull().sum())

#筛选有用特征,切片处理

data = com.iloc[:,-2:]

# print(data)

#异常值检测,箱线图分析

#按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

#按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

#构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

# print(data)

#标准化数据,量级不大,暂时不处理量级

#标准化数据

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

return data.values

绘图部分函数如下

def show_res_km(data,y_predict,center):

'''无锡妇科检查医院 http://www.87554006.com/

进行结果展示

:param data:原始数据

:param y_predict:预测标签

:param center:最终的聚类中心

:return:

'''

plt.figure()

#获取原始数据的行数

index_num = data.shape[0]

#

colors = ['r','g','b','y']

for i in range(index_num):

plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

#散点图的绘制,一个一个绘制

#聚类中心的位置

#b的话是描点划线,bx的话是画点但是不描线

plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

plt.show()

调用函数来进行聚类

data = built_data()

#导包实现

k=3

km = KMeans(n_clusters=k)

#训练数据

km.fit(data)

#进行预测 ,y_predict预测标签

y_predict = km.predict(data)

#获取聚类中心

center = km.cluster_centers_

print('预测值:\n',y_predict)

print('聚类中心:\n',center)

show_res_km(data.values,y_predict,center)

得出结果

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网页名称:超市用户的k-means聚类处理-创新互联
新闻来源:http://cdiso.cn/article/phgoo.html

其他资讯