首页 > 搜索 > 异众比率算法,pandas 异众比率 计算

异众比率算法,pandas 异众比率 计算

互联网 2020-10-22 19:35:48
在线算命,八字测算命理
数据的描述性统计与python实现使用pandas导入数据

导入需要的包

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibfrom scipy.stats import modeimport seaborn as snsimport os

更改工作目录及读取数据

os.chdir(r'C:\Users\Mr.M\notebook')snd = pd.read_excel("作业数据.xls")

数据可视化,数据为259人的身高数据

from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题snd.height.value_counts().sort_index().plot(kind = 'bar')

身高分布直方图

数据的集中趋势

众数:出现频率最多的取值中位数:按大小排序后中间那个取值(50%分位数)平均数:所有数值加总后除以数量分位数:分位数就是先把一列数按从小到大排序,如果一共有n个数,那么四分之一分位数就是第n* 0.25个数,四分之三分位数就是第n* 0.75个数,以此类推,p分位数就是第n * p个数.如果n * p不是整数则往最接近的较大的整数上归。

print('平均值:',snd.height.mean())print('中位数:',snd.height.median())print('众数:',mode(snd.height))#也就是中分位数print('上四分位数',snd.height.quantile([0.25]))print('下四分位数',snd.height.quantile([0.75]))print('最大值:',snd.height.max())print('最小值:',snd.height.min())平均值: 171.19379844961242中位数: 171.0众数: ModeResult(mode=array([170], dtype=int64), count=array([30]))上四分位数 0.25166.0Name: height, dtype: float64下四分位数 0.75176.0Name: height, dtype: float64最大值: 188最小值: 150

盒须图:image.png

sns.boxplot( y = 'height', data = snd)

在这里插入图片描述

算数平均数:即均值加权平均数:加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。加权平均值的大小不仅取决于总体中各单位的数值(变量值)的大小,而且取决于各数值出现的次数(频数),由于各数值出现的次数对其在平均数中的影响起着权衡轻重的作用,因此叫做权数几何平均数:几何平均数是对各变量值的连乘积开项数次方根

数据的离中趋势

方差:样本方差的定义image.png标准差:样本方差的算术平方根,定义:image.png极差:最大值-最小值平均差:各个变量值同平均数的离差绝对值的算术平均数。四分位差:上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。异众比率:异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

print('方差:',snd.height.var())print('标准差:',snd.height.std())print('极差:',snd.height.max()-snd.height.min())print('四分位差:',int(snd.height.quantile([0.75])) - int(snd.height.quantile([0.25])))print("异众比率:",(1-mode(snd.height)[1][0]/len(snd.height)))方差: 47.07513648840227标准差: 6.861132303665501极差: 38四分位差: 10异众系数: 0.8837209302325582相对离散程度

离散系数:(coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比:image.png离散系数是衡量资料中各观测值离散程度的一个统计量。当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用离散系数来比较

print('离散系数:',np.std(snd.height)/np.mean(snd.height))离散系数: 0.04000041291305872分布的形状

偏态系数:用来度量分布是否对称。以平均值与中位数之差对标准差之比率来衡量偏斜的程度:image.png用SK表示偏斜系数:正态分布左右是对称的,偏度系数为0,偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏

峰态系数:用来度量数据在中心聚集程度,四阶中心矩与σ4的比值作为衡量峰度的指标:image.png在正态分布情况下,峰度系数值是3,>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;

免责声明:非本网注明原创的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件12小时内删除。

相关阅读

一周热门

查看更多