机器学习统计概率分布全面总结

在平时的科研中，我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此，掌握一定的统计概率相关知识非常有必要。本文将讨论我们经常遇到的概率分布，希望能从概念层面帮助大家建立总体认知。
1. 随机变量,离散随机变量
随机实验的所有可能结果都是随机变量。一个随机变量集合用  表示。如果实验可能的结果是可数的，那么它被称为离散随机变量。例如，如果你抛硬币 10 次，你能得到的正面数可以用一个数字表示。或者篮子里有多少苹果仍然是可数的。 连续随机变量 这些是不能以离散方式表示的值。例如，一个人可能有 1.7 米高，1米 80 厘米，1.6666666...米高等等。
2. 密度函数,我们使用密度函数来描述随机变量  的概率分布。 PMF：概率质量函数 返回离散随机变量  等于  的值的概率。所有值的总和等于 1。PMF 只能用于离散变量。
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第1张
PMF。来源：https://en.wikipedia.org/wiki/Probability_mass_function PDF：概率密度函数 它类似于连续变量的 PMF 版本。返回连续随机变量 X 在某个范围内的概率。

PDF。来源：https://byjus.com/maths/probability-density-function/ CDF：累积分布函数 返回随机变量 X 取小于或等于 x 的值的概率。
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第3张
CDF。来源：https://en.wikipedia.org/wiki/Cumulative_distribution_function,3. 离散分布,伯努利分布 我们只有一个试验和两个可能的结果。例如，抛硬币。我们有一个真的的结果和一个假的的结果。假设我们接受正面为真。那么，如果正面朝上的概率是   ，相反情况的概率就是   。
import seaborn as sns from scipy.stats import bernoulli # 单一观察值 # 生成数据 data = bernoulli.rvs # 绘制图形 ax = sns.distplot ax.set
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第4张
二项式分布
伯努利分布是针对单个观测结果的。多个伯努利观测结果会产生二项式分布。例如，连续抛掷硬币。试验是相互独立的。一个尝试的结果不会影响下一个。二项式分布可以表示为   。  是试验次数，   是成功的概率。让我们进行一个实验，我们连续抛掷一枚公平的硬币 20 次。
import matplotlib.pyplot as plt from scipy.stats import binom n = 20   # 实验次数 p = 0.5 # 成功的概率 r = list) # the number of success # pmf值 pmf_list = [binom.pmf for r_i in r ] # 绘图 plt.barplt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第5张
它看起来像正态分布，但请记住这些值是离散的。
现在这次，你有一枚欺诈硬币。你知道这个硬币正面向上的概率是 0.7。因此，p = 0.7。

带有偏差硬币的二项式分布该分布显示出成功结果数量增加的概率增加。   : 成功的概率  : 实验次数  : 失败的概率
均匀分布
所有结果成功的概率相同。掷骰子，1 到 6。
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第7张
掷 6 次。
data = np.random.uniform

掷 6000 次。
Poisson 分布
它是与事件在给定时间间隔内发生频率相关的分布。   ，  是在指定时间间隔内预期发生的事件次数。它是在该时间间隔内发生的事件的已知平均值。  是事件在指定时间间隔内发生的次数。如果事件遵循泊松分布，则：    在泊松分布中，事件彼此独立。事件可以发生任意次数。两个事件不能同时发生。如每 60 分钟接到 4 个电话。这意味着 60 分钟内通话的平均次数为 4。让我们绘制在 60 分钟内接到 0 到 10 个电话的概率。
import matplotlib.pyplot as plt from scipy.stats import poisson r = range # 呼叫次数 lambda_val = 4 # 均值 # 概率值 data = poisson.pmf # 绘图 figax = plt.subplots) ax.plot plt.ylabel plt.xlabel plt.title ax.vlines
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第9张
4. 连续分布,正态分布
最著名和最常见的分布，是一种钟形曲线。它可以通过均值和标准差定义。正态分布的期望值是均值。曲线对称。均值、中位数和众数相等。曲线下总面积为 1。大约 68%的值落在一个标准差范围内。~95% 落在两个标准差范围内，~98.7% 落在三个标准差范围内。
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第10张

import scipy mean = 0 standard_deviation = 5 x_values = np. arange y_values = scipy.stats.norm plt.plot)

正态分布的概率密度函数为：      是均值，  是常数，  是标准差。
QQ 图
我们可以使用 QQ 图来直观地检查样本与正态分布的接近程度。计算每个数据点的 z 分数并对其进行排序，然后在 y 轴上表示它们。X 轴表示值的排名的分位数。这个图上的点越接近对角线，分布就越接近正态分布。
import numpy as np import statsmodels.api as sm points = np.random.normal fig = sm.qqplot plt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第12张
长尾分布
尾巴是分布的长而窄的部分，离群值就位于其中。当一侧尾巴不同于另一侧时，就称为偏斜。下图是长尾分布的 QQ 图。

import matplotlib.pyplot as plt from scipy.stats import skewnorm def generate_skew_data:       # Skewnorm function       random = skewnorm.rvs       plt.hist       plt.show generate_skew_data # negative -> 左偏分布
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第14张

generate_skew_data # positive -> 右偏分布,
学生 t 检验分布 正态但有尾。

t 分布和 z 分布。来源：https://www.geeksforgeeks.org/students-t-distribution-in-statistics/ t 分布是具有较厚尾部的正态分布。如果可用数据较少，则使用 t 分布代替正态分布。在 t 分布中，自由度变量也被考虑在内。根据自由度和置信水平在 t 分布表中找到关键的 t 值。这些值用于假设检验。 t 分布表情移步：https://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf。
对数正态分布
随机变量 X 的对数服从正态分布的分布。
import numpy as np import matplotlib.pyplot as plt from scipy import stats X = np.linspace std = 1 mean = 0 lognorm_distribution = stats.lognorm lognorm_distribution_pdf = lognorm_distribution.pdf figax = plt.subplots) plt.plot ax.set_xticksmax)) plt.title plt.legendplt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第17张
指数分布
我们在 Poisson 分布中研究了在一定时间间隔内发生的事件。在指数分布中，我们关注的是两个事件之间经过的时间。如果我们把上面的例子倒过来，那么两个电话之间需要多长时间？因此，如果 X 是一个随机变量，遵循指数分布，则累积分布函数为：         是均值，  是常数。
from scipy.stats import expon import matplotlib.pyplot as plt x = expon.rvs # 2 calls # 绘图 plt.hist
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第18张
x 轴表示时间间隔的百分比。
韦伯分布
它是指时间间隔是可变的而不是固定的情况下使用的指数分布的扩展。在 Weibull 分布中，时间间隔被允许动态变化。   是形状参数，如果是正值，则事件发生的概率随时间而增加，反之亦然。  是尺度参数。
import matplotlib.pyplot as plt x = np.arange/50. def weib:       return  *  * np.expa) countbinsignored = plt.hist) x = np.arange/50. scale = count.max/weib.max plt.plot*scale) plt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第19张
Gamma 分布
指与第 n 个事件发生所需的时间有关的分布，而指数分布则与首次事件发生的时间有关。
import numpy as np import scipy.stats as stats import matplotlib.pyplot as plt #Gamma distributions x = np.linspace y1 = stats.gamma.pdf y2 = stats.gamma.pdf y3 = stats.gamma.pdf # plots plt.plot plt.plot plt.plot #add legend plt.legend #display plotplt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第20张
Gamma 分布。X 轴表示随机变量 X 可能取到的潜在值，Y 轴表示分布的概率密度函数值。
Gamma 分布
它用于统计检验。这通常在实际分布中不会出现。
# x轴范围0-10，步长0.25 X = np.arange plt.subplots) plt.plotlabel="1 dof") plt.plotlabel="2 dof") plt.plotlabel="3 dof") plt.title plt.legend plt.show
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第21张
中心极限定理,当我们从人群中收集足够大的样本时，样本的平均值将具有正态分布，即使人群不是正态分布。
我们可以从任何分布开始，从人群中收集样本并记录这些样本的平均值。随着我们继续采样，我们会注意到平均值的分布正在慢慢形成正态分布。
机器学习统计概率分布全面总结 (https://ic.work/) AI 人工智能第22张

机器学习统计概率分布全面总结

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

TrendForce集邦咨询: 预估2025年笔电品牌出货成长率将下修至1.4%

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

让英特尔再次伟大，新CEO推动18A提前量产，14A已在路上

晶振在网通应用增光添彩：中国移动实现数字乡村大升级

一文解析电磁场与电磁波的区别

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

最近更新

芯驰科技与Arteris深化合作

戴尔PowerEdge R770服务器的性能测试

光庭信息与芯驰科技签署战略合作协议

京东方发布2025年第一季度报告

中科曙光DeepAI深算智能引擎全面支持Qwen3

中微爱芯亮相第21届家电电源与智能控制技术研讨会

中科曙光亮相第八届数字中国建设峰会

RDK全系赋能！点猫科技与地瓜机器人共建具身智能大中小贯通培养闭环要闻

魔视智能携手德州仪器亮相2025慕尼黑上海电子展

曙光存储亮相2025 IT市场年会