机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解

接线图 2024年04月24日 17:41 19 admin

机器学习中最值得问的一个问题是，到底需要多少数据才可以得到一个较好的模型？从理论角度，有Probably approximately correct (PAC) learning theory来描述在何种情况下，可以得到一个近似正确的模型。但从实用角度看，PAC的使用范围还是比较局限的。所以今天我们主要想讨论一个问题：到底如何定义有效数据量。

1. 数据的粒度（granularity） 数据的粒度可以理解为数据的细分程度，或者具体程度。举个简单例子，我们想预测股票的走势，那么我们可以得到以下历史数据：每秒钟的交易数据每分钟的交易数据 ... 每年的交易数据换成另一个场景，如果我们打算对一个句子进行截断，“我今天真高兴”，那么结果可以是：我 | 今 | 天 | 真 | 高 | 兴我今 | 今天 | 天真 | 真高 | 高兴我今天 | 天真高 | 高兴X 随着细分程度的改变，那么数据量也有明显的变化。数据的粒度越细，数据量越大。一般来说，我们追求尽量细分的数据，因为可以通过聚合（aggregation）来实现从具体数据到宏观数据的还原，但反之则不可得。但是不是数据越具体越好？不一定，过于具体的数据缺失了特征，有效的特征仅在某个特定的粒度才存在。打个比方，人是由原子、分子、细胞、组织、器官构成，但在分子层面我们不一定能分辨它是人，只有到达一定的粒度才可以。因此，数据收集的第一个重点是搞清楚，在什么粒度可以解决我们的问题，而不是盲目的收集一大堆数据，或者收集过于抽象的数据。

2. 数据量与特征量的比例 机器学习中对于数据的表达一般是 n*m的矩阵，n代表样本的数量，一行（row）数据代表一个独立数据。而m代表特征变量（attribute/feature/variable）的数量，一列（column）数据代表某个特征在所有样本上的数值。比如下图就代表了一个 4*2（n=4，m=2）的矩阵，即总共有4条数据，每个数据有2个特征。机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第1张人们讨论数据量，往往讨论的是n，也就是有多少条数据。但这个是不准确的，因为更加适合的评估应该是n/m，也就是样本量除以特征数，原因很简单。如果你只有100条数据，但只有2个特征。如果用线性函数来拟合，相当于给你100个点来拟合到二次函数上，这个数据量一般来说是比较充裕的。但还是100个数据点，每个数据的特征数是200，那么很明显你的数据是不够的，过拟合的风险极高。所以谈论数据量，不能光说有多少条数据n，一定也要考虑数据的特征数m。

3. 特征间的相关性与有效性 前文所有的讨论都建立在一个标准上，那就是我们选择的数据是有效的。从两个方向理解：数据间的重复性低：样本间的重复性比较低，不会存在大量的重复样本。一行数据复制100次还是1行数据，因此拿到数据后去重也是很有必要的。特征间的重复性低：这个要回归到线性代数上，假设你有3个特征，结果 X_3 = \alpha X_1 + \beta X_2 ，那么从某种意义上来看你并没有3个独立特征，即特征间的相关性比较高。对于表达能力比较弱的模型，我们甚至有时还会人为的手动制造一些这样的变量，但如果你的数据量大量的变量都是相关的，那么要谨慎地认为你的数据量很大。举个极端的例子，你有n个变量，结果 X_j = X_1 \cdot j \quad \forall j\in[1,2,...n] ，那么说到底你还是只有1个变量。数据的有效性：此处的有效性指的是你的变量对于解决问题有帮助，而不是完全无关或者关联性极低的数据。不要小看无关数据，几乎无处不在。拿我常举的例子来说：机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第2张

图1. 全球非商业性空间飞船发射数量与美国社会学博士毕业数量之间的关系[1]

4. 数据是否越多越好？ 承接上一个部分，数据比模型更重要，数据重要性 >> 模型重要性。机器学习模型的表现高度依赖于数据量 [2]，选择对的模型只是其次，因为巧妇难为无米之炊。但数据不是越多越好，随机数据中也可能因为巧合而存在某种关联。Freedman在1989年做过的模拟实验 [3]中发现，即使数据全是由噪音构成，在适当的处理后，也能发现数据中显著的相关性：a. 6个特征显著 b. 对回归的做F-teST的p值远小于0.05，即回归存在统计学意义以此为例，大量数据不代表一定有显著的意义，即使相关性检验也不能证明这一点。一般来说，需要先确认数据的来源性，其次要确认显著的特征是否正常，最后需要反复试验来验证。最重要的是，要依据人为经验选取可能有关的数据，这建立在对问题的深入理解上。更多相关的讨论可以参考微调：你实践中学到的最重要的机器学习经验是什么？。

5. 数据量与模型选择 一般来说，在大数据量小特征数时，简单模型如逻辑回归+正则即可。在小数据量多特征下，集成的树模型（如随机森林和xgboost）往往优于神经网络。随着数据量增大，两者表现趋于接近，随着数据量继续上升，神经网络的优势会逐步体现。随着数据量上升，对模型能力的要求增加而过拟合的风险降低，神经网络的优势终于有了用武之地而集成学习的优势降低。我在微调：怎么理解决策树、xgboost能处理缺失值？而有的模型(svm)对缺失值比较敏感呢? 曾经总结过一些根据数据量选择模型的经验：数据量很小，用朴素贝叶斯、逻辑回归或支持向量机数据量适中或者较大，用树模型，优先 xgboost和lightgbm 数据量较大，尝试使用神经网络所以说到底，依然不存在定式，而依赖于经验和理解，供大家参考。

-电子元器件采购网（www、oneyac、com）是本土元器件目录分销商，采用“小批量、现货、样品”销售模式，致力于满足客户多型号、高质量、快速交付的采购需求。自建高效智能仓储，拥有自营库存超50,000种，提供一站式正品现货采购、个性化解决方案、选项替代等多元化服务。（本文来源网络整理，目的是传播有用的信息和知识，如有侵权，可联系管理员删除）

随着科技不断发展，手机屏幕发挥着巨大作用，屏幕的好坏直接关系到手机品质。在移动互联网时代，人们在处理大量信息时，小尺寸低分辨率屏幕已经无法满足消费者需求，因此大尺寸高分辨率屏幕成为众多手机的主流。 1974年，世界上第一部手机诞生，但手机没有屏幕，很容易打错电话。1983年，世界上第一部屏幕手机诞生。进入21世纪后，手机开始在我们的生活中扮演重要角色。手机的身材越来越小巧，屏幕却越来越大。

机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第3张

显示屏作为手机最重要的，显示输出设备，从最初的单色LCD显示屏幕，到STN、CSTN显示技术，再到TFT显示屏，显示技术几乎见证了手机产业的发展历程。就是这样一块小小的显示设备，却蕴含了无限的尖端科技与人类智慧的结晶。随着科技不断发展，手机屏幕发挥着巨大作用，屏幕的好坏直接关系到手机品质。在移动互联网时代，人们在处理大量信息时，小尺寸低分辨率屏幕已经无法满足消费者需求，因此大尺寸高分辨率屏幕成为众多手机的主流。 单色LCD显示屏 手机的显示屏最初是单色显示屏，即黑白屏。由CPU控制液晶屏像素的“黑”与“不黑”，组成文字和图形。机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第4张

1987年，摩托罗拉3200作为第一款打开中国移动通信市场的产品。当时昂贵的售价和入网费用，让它成为了个人身份的象征。摩托罗拉3200具有一块可支持双行单色显示的屏幕，支持英文短信，英文电话薄，支持DTMF音频发送，缩位拨号。这款手机打开了黑白屏时代的大门。 STN和CSTN显示屏 STN是Super TwistedNematic的缩写，是我们接触的最多的LCD了，因为我们过去使用的灰阶手机的屏幕都是STN的。STN型液晶属于被动矩阵式LCD器件，它的好处是功耗小，具有省电的最大优势。 CSTN即ColorSTN，彩色STN的显示原理是在传统单色STN液晶显示器上加彩色滤光片，并将单色显示矩阵中的每一像素分成三个子像素，分别通过彩色滤光片显示红、绿、蓝三原色，就可显示出彩色画面。和TFT不同，STN属于无源Passive型LCD，一般最高能显示65536种色彩。

机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第5张

CSTN一般采用传送式(transmissive)照明方式，传送式屏幕要使用外加光源照明，称为背光(backlight)，照明光源要安装在LCD的背后。传送式LCD在正常光线及暗光线下，显示效果都很好，但在户外，尤其在日光下，很难辨清显示内容而背光需要电源产生照明光线，要消耗电功率。 STN响应速度慢是它的致命伤，这就是很多采用这种屏幕的手机看起运行速度非常缓慢，其实是来自屏幕响应速度的迟滞。

TFT液晶屏 TFT（Thin Film Transistor）即薄膜场效应晶体管，属于有源矩阵液晶显示器中的一种。它可以“主动地”对屏幕上的各个独立的像素进行控制，这样可以大大提高反应时间。一般TFT的反应时间比较快，约80毫秒，而且可视角度大，一般可达到130度左右，主要运用在高端产品。所谓薄膜场效应晶体管，是指液晶显示器上的每一液晶象素点都是由集成在其后的薄膜晶体管来驱动。从而可以做到高速度、高亮度、高对比度显示屏幕信息。

机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第6张

TFT属于有源矩阵液晶显示器，在技术上采用了“主动式矩阵”的方式来驱动，方法是利用薄膜技术所作成的电晶体电极，利用扫描的方法“主动拉”控制任意一个显示点的开与关，光源照射时先通过下偏光板向上透出，借助液晶分子传导光线，通过遮光和透光来达到显示的目的。 TFT屏幕共分65536 色、16 万色、1600万色三种，相对于彩屏STN其显示效果非常出色。 IPS液晶屏

机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解第7张

IPS（In-PLANe Switching，平面转换）技术是日立公司于2001推出的液晶面板技术，俗称“Super TFT”。IPS面板最大的特点就是它的两极都在同一个面上，而不象其它液晶模式的电极是在上下两面，立体排列。由于电极在同一平面上，不管在何种状态下液晶分子始终都与屏幕平行，会使开口率降低，减少透光率，所以IPS应用在LCD TV上会需要更多的背光灯。 IPS面板的优势是可视角度高、响应速度快，色彩还原准确，是液晶面板里的高端产品。该面板技术增强了LCD的动态显示效果，在观看体育赛事、动作片等运动速度较快的节目时能够获得更好的画质。和其他类型的面板相比，IPS面板用手轻轻划一下不容易出现水纹样变形，因此又有硬屏之称。仔细看屏幕时，如果看到是方向朝左的鱼鳞状象素，加上硬屏的话，那么就可以确定是IPS面板了。 IPS俗称“Super TFT”，从名字中我们知晓，IPS屏幕是基于TFT的一种技术，其实质还是TFT屏幕，只不过是采用IPS技术的TFT屏，其主要是改变了液晶分子颗粒的排列方式，采用水平转换技术，加快了液晶分子的偏转速度，保证在抖动时画面清晰度还有很好的表现力，因此色彩表现比TFT更加优秀，细节表现更细腻，可视角度更高。相对于普通的TFT屏，它拥有可视角度大、色彩还原准确、触摸无水纹、环保节电等优势。

版权与免责声明

本网转载并注明自其它出处的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品出处，并自负版权等法律责任。

如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

使用IAP在应用编程轻松更新固件-电子技术方案|电路图讲解

RTD测量系统中励磁电流失配的影响-原理图|技术方案

发表评论

机器学习到底需要多少数据？可能并不是越多越好-电子技术方案|电路图讲解

使用IAP在应用编程轻松更新固件-电子技术方案|电路图讲解

RTD测量系统中励磁电流失配的影响-原理图|技术方案

热门文章

标签列表