今天,我将告诉你一个悲伤的故事。享有“泰坦尼克号”美誉的泰坦尼克号不沉的& quot,1912年从英国出发,驶向美国纽约。然而不幸的是,泰坦尼克号与一座冰山相撞,泰坦尼克号的船体裂成两半,沉入大西洋海底。在2224名机组人员和乘客中,1517人遇难,其中只有333具尸体被找到。
Importnumpyasnp#导入库。pyplotasplt % Matplotlibinline titanic=SNS。Load _ dataset('泰坦尼克')泰坦尼克。head () #数据概述
titanic . info()# Data SNS . set(style=' dark grid 'palette=' muted 'color _ codes=true)SNS . distplot(titanic[titanic[' age ']。not null ()] ['age']) # distplot函数。
泰坦尼克号的时代。菲尔娜(泰坦尼克号[《时代》]。Mean ()) SNS。Distplot (titanic ['age'])呈正态分布,缺失值用年龄平均值填充,然后可视化年龄分布。
Sns。count plot(x=' emboaded 'data=titanic) #绘制类别计数直方图titanic[' emboaded ']=titanic[' emboaded ']。《泰坦尼克号》。isnull()。sum()用正确的寄宿地点填写缺失的值。
titanic . head()titanic=titanic . drop([' survive '' PClass '' sibsp '' Parch '' Who ''成人_男性'' deck '' embark _ town'],axis=1)泰坦尼克号。数据清理
Sns.boxplot (x=' sex 'y=' age 'data=titanic)从上图可以看出,男女的年龄分布非常相似,只是女性乘客的年龄跨度大一点。
SNS。Countplot (x=' class 'data=titanic)对于舱位等级的计数,三等舱的数量最多。
Sns。violinplot (x=' class 'y=' age 'data=titanic)结合客舱等级绘制乘客年龄分布的箱型图。第一阶层的年龄跨度大,第三阶层的中年人分布最多。
SNS。Countplot (x=' alone 'data=titanium)统计alone字段,散客数量较多。
SNS。Countplot (x=' alive 'data=titanic)将幸存的场可视化,没有生还的乘客数量更多。
SNS。Countplot (x=' alive 'hue=' sex 'data=titanic) hue=' sex '加上性别变量,幸存者大部分是女性。
G=SNS。Facetgrid (titanic,col=' sex') #使用网格技术g.map(sns.countplot,Alive ')# dise level(age): if age=163360 return ' child ' elif age=603360 return ' age ' else 3360 return ' middle life ' titanic[' age _ level ']=titanic[' age ']。map(agelevel)#对年龄进行分类,将老人和孩子的数据分开。titanic.head()#年龄层次的SNS。Countplot (x=' age _ level 'data=titanic)对年龄可视化进行分类,成年乘客的数量占很大比例,而儿童和老人的比例很小。
SNS。Countplot (x=' alive 'hue=' age _ level 'data=titanic)乘客年龄与幸存乘客的关系并不明显。孩子活下来的几率比较高,但是老人比较小。
G=SNS。刻面网格(Titanium,Col=' Class 'Row=' Alone') #网格技术G.Map (SNS。Countplot,' Live ')乘客等级越高,生还的可能性越大,个别乘客生还的几率也越大。