成人免费a级毛片无码,国产在线精品成人一区二区三区,亚韩无码一区二区在线视

python中使用K-means算法

k-means是機(jī)器學(xué)習(xí)中最常用的聚類算法，關(guān)于k-means算法的數(shù)學(xué)原理、算法、偽碼等已有相當(dāng)豐富的文獻(xiàn)，在此不再贅述。

1、調(diào)用以下庫

importnumpyasnp#用于抽樣和生成隨機(jī)數(shù)

fromsklearn.clusterimportKMeans#sklearn自帶的Kmeans算法,用于嚴(yán)重本文算法結(jié)果是否正確

importmatplotlib.pyplotasplt#結(jié)果可視化

importsys#需要用到sys.exit()函數(shù)

若不需要驗(yàn)證聚類結(jié)果是否可以不使用Sklearn庫。

2、生成用于訓(xùn)練的隨機(jī)數(shù)據(jù)

np.set_printoptions(suppress=True)#令numpy的結(jié)果不以科學(xué)計(jì)數(shù)法的方式輸出

Data=np.array([[1.0,2.0],[1.5,1.8],[3,4],[6,8],[8,8],[1,0.6],

[9,11],[7,10]])#你也可以通過抽樣的方式來更快的獲得測(cè)試數(shù)據(jù)

3、定義用于選擇隨機(jī)初始點(diǎn)和簇?cái)?shù)(k)的函數(shù)

defK_means(data,k):

globalMean

mean=[]

a=np.max(data[:,0])

b=np.min(data[:,0])

c=np.max(data[:,1])

d=np.min(data[:,1])

foriinrange(k):

x=np.random.uniform(a,b,1)

#此處返回array

y=np.random.uniform(c,d,1)#此處返回array

mean.append([float(x),float(y)])

Mean=np.array(mean)

returnMean

在上面的代碼中，為了限定初始點(diǎn)(x,y)的位置不會(huì)超出樣本點(diǎn)的范圍，因此均勻抽樣的上下限是指訓(xùn)練數(shù)據(jù)(a,b)和(c,d)的最小橫距。

4、定義可視化函數(shù),繪制測(cè)試數(shù)據(jù)散點(diǎn)圖

defvision(data,cell):

plt.figure(figsize=(12,6))

ax1=plt.subplot(121)

ax1.scatter(Data[:,0],Data[:,1])#原始數(shù)據(jù)散點(diǎn)圖

ax1.scatter(point[:,0],point[:,0])#同時(shí)將隨機(jī)選取的初始點(diǎn)表示出來

plt.xlabel("x")

plt.ylabel("y")

plt.title("scatterof"+"rural"+"data")

ax2=plt.subplot(122)

ax2.scatter(Data[:,0],Data[:,1])#原始數(shù)據(jù)散點(diǎn)圖

ax2.scatter(data[:,0],data[:,1])#經(jīng)過迭代后最終確定的聚類點(diǎn)

plt.xlabel("x")

plt.ylabel("y")

plt.title("scatterof"+cell+"data")

plt.show()

聚類結(jié)果的可視化對(duì)于判斷聚類結(jié)果的準(zhǔn)確性至關(guān)重要。

5、定義迭代過程,通過不斷計(jì)算各個(gè)樣本對(duì)聚類點(diǎn)的歐式聚類,來不斷更新聚類點(diǎn)

defiteration(Data,point):

A=[]

B=[]

foriinrange(len(Data)):

d1=np.sqrt(sum(pow(Data[i]-point[0],2)))

d2=np.sqrt(sum(pow(Data[i]-point[1],2)))

ifd1>d2:

A.append(list(Data[i]))

else:

B.append(list(Data[i]))

iflen(A)==len(Data)orlen(B)==len(Data):

print("初始化錯(cuò)誤")

sys.exit(0)

new_x1=np.mean(np.array(A)[:,0])

new_y1=np.mean(np.array(A)[:,1])

new_x2=np.mean(np.array(B)[:,0])

new_y2=np.mean(np.array(B)[:,1])

new_point=np.array([[new_x1,new_y1],[new_x2,new_y2]])

returnnew_point

注意,上段代碼中加入了一個(gè)if語句

iflen(A)==len(Data)orlen(B)==len(Data):

print("初始化錯(cuò)誤")

sys.exit(0)

由于初始點(diǎn)是隨機(jī)產(chǎn)生的，所以這個(gè)條件語句是非常必要的，因此有可能所有的樣本點(diǎn)都只接近一個(gè)聚類中心而遠(yuǎn)離另一個(gè)聚類中心，這樣就不能形成兩個(gè)聚類中心，程序?qū)?huì)報(bào)錯(cuò)，因此我們需要排除出現(xiàn)這種情況的可能性。一旦所有樣本點(diǎn)都接近一個(gè)聚類中心時(shí)令程序停止。

以上就是Python中使用K-means算法，希望能對(duì)大家有所幫助!更多Python學(xué)習(xí)教程請(qǐng)關(guān)注 IT培訓(xùn)機(jī)構(gòu):千鋒教育。