數(shù)據(jù)探索:使用Pandas庫讀取了名為air.csv的原始數(shù)據(jù),并進(jìn)行了基本的探索,包括計(jì)算缺失值個(gè)數(shù)、最大值和最小值,并輸出到air_data.csv文件。
客戶基本信息分布分析:提取了會(huì)員入會(huì)年份、性別、會(huì)員等級(jí)和年齡等信息,并使用Matplotlib庫繪制了直方圖、餅圖和箱型圖來展示這些信息的分布情況。
乘機(jī)信息分布情況分析:分析了客戶的最后乘機(jī)時(shí)間至結(jié)束時(shí)長(zhǎng)、飛行次數(shù)和總飛行公里數(shù),并同樣使用了箱型圖來展示這些信息的分布。
積分信息分布情況分析:提取了會(huì)員的積分兌換次數(shù)和總累計(jì)積分,并繪制了直方圖和箱型圖來展示這些積分信息的分布。
相關(guān)系數(shù)矩陣與熱力圖:計(jì)算了關(guān)鍵屬性之間的相關(guān)性矩陣,并使用Seaborn庫繪制了熱力圖來展示這些屬性之間的相關(guān)性。
數(shù)據(jù)清洗:進(jìn)行了數(shù)據(jù)清洗工作,包括去除空值和異常值,并保存了清洗后的數(shù)據(jù)到data_cleaned.csv。
屬性選擇:從清洗后的數(shù)據(jù)中選取了特定的屬性,如FFP_DATE、LOAD_TIME、LAST_TO_END等,以供進(jìn)一步分析。
屬性構(gòu)造與數(shù)據(jù)標(biāo)準(zhǔn)化:構(gòu)造了新的屬性L,并將數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,以便進(jìn)行聚類分析。
K-Means聚類:使用了K-Means算法對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行了聚類分析,并輸出了聚類中心和樣本的類別標(biāo)簽。
客戶分群雷達(dá)圖:最后,繪制了客戶分群的雷達(dá)圖,以可視化不同客戶群的特征。