蓝盟弱电工程,要预测的类别数

发布者:上海IT外包 发布时间:2019/7/4 16:50:52来源:www.linemore.com


  模型的预期输出是多少?基本上,数量或类别越少越好。
  模特表现
  如果您计划将项目投入生产,则需要更多。用于概念验证的小数据集可能就足够了,但在生产中,您需要更多数据。
  通常,小数据集需要低复杂度(或高偏差)模型以避免模型过度拟合数据。
  非技术解决方案
  在探索技术解决方案之前,让我们分析一下数据集的增强方式。这可能是一个废话,但在开始AI项目之前,您需要通过开发外部和内部工具来收集尽可能多的数据。如果您知道机器学习算法预期要执行的任务,则可以提前创建数据收集机制。
  此外,当您启动ML项目时,您还可以使用开源数据。网上有很多可用于ML的数据,其附属公司已准备好弃用它。
  如果您需要项目的外部数据,与其他组织建立合作伙伴关系以获取相关数据可能会很有用。建立伙伴关系显然会花费你一些时间,但你获得的专有数据将为你提供自然的竞争力。
  构建一个有用的应用程序,不管它,只使用数据
  我之前项目中使用的另一种方法是为客户提供对云应用程序的访问,并且可以使用进入应用程序的数据来构建机器学习模型。我的前客户为医院创建了一个应用程序,并免费提供。我们收集了大量数据,并设法为我们的ML解决方案创建了一个独特的数据集。
  小数据集
  根据作者的经验,使用小数据集构建预测模型的一些常用方法是:
  通常,机器学习算法越简单,它就越能从小数据集中学习。从ML的角度来看,小数据需要具有低复杂度(或高偏差)的模型,以避免模型过度拟合到数据。朴素贝叶斯算法是最简单的分类器之一,因此它从相对较小的数据集中学习得很好。
  您还可以依赖其他线性模型和决策树。事实上,它们在小型数据集上的表现相对较好。基本上,简单模型可以比更复杂的模型(神经网络)更好地从较小的数据集中学习,因为它们本质上是试图减少学习。
  对于非常小的数据集,贝叶斯方法通常是同类中最好的,尽管结果可能对您的先验选择很敏感。作者认为朴素贝叶斯分类器和岭回归是最好的预测模型。
  对于小型数据集,您需要具有少量参数(低复杂性)和/或强大先验的模型。您还可以将“先验”解释为您可以对数据行为方式做出的假设。
  还有许多其他解决方案基于业务问题的确切性质和数据集的大小。移民学习
  定义:在构建机器学习模型时使用现有的现有数据或模型框架。
  迁移学习使用从学习任务中获得的知识来提高相关任务的性能,通常会减少所需的培训数据量。
  迁移学习技术很有用,因为它们允许模型使用从另一个数据集或称为源域的现有机器学习模型获得的知识来预测新域或任务(目标域)。
  如果没有足够的目标培训数据,则应考虑使用迁移学习技术。源域和目标域有一些相似之处,但它们并不相同。
  简单地聚合模型或不同的数据集并不总是有效的。如果现有数据集与目标数据非常不同,则新学习模型可能受现有数据或模型的负面影响。
  当您拥有可用于推断知识的其他数据集时,迁移学习很有效,但如果您根本没有数据,该怎么办?在这一点上,数据生成可以是一个很大的帮助。如果没有可用数据,或者您需要创建的数据多于通过聚合收集的数据,请使用此方法。
  简单来说,此方法需要修改少量现有数据以创建数据变体并训练模型。例如,您可以裁剪和缩小汽车图像以生成更多汽车图像。
  缺乏高质量的标签数据也是数据科学团队面临的最大挑战之一。通过使用迁移学习和数据生成等技术,可以在一定程度上克服数据稀缺性。
  迁移学习的另一个常见应用是在跨客户数据集上训练模型以克服冷启动问题。我注意到许多SaaS公司在向ML产品添加新客户时经常需要处理这个问题。实际上,在新客户收集足够的数据以实现良好的模型性能(可能需要几个月)之前,很难提供有效的价值。
  数据扩展
  数据扩展意味着增加数据点的数量。在我的最新项目中,我们使用数据扩展技术来增加数据集中的图像数量。对于传统的行/列格式数据,这意味着增加行或对象的数量。
  我们别无选择,只能依靠数据扩展,原因有两个:时间和准确性。每个数据收集过程都与成本相关联,成本可以是美元,人力资源,计算资源,当然还包括在流程中花费的时间。
  因此,我们必须扩展现有数据,以增加我们提供给ML分类器的数据的大小,并补偿进一步数据收集的成本。
  有许多方法可以扩展数据。作为汽车图像的一个示例,您可以旋转原始图像,更改照明条件,并以不同方式裁剪。因此,对于图像,您可以生成不同的子样本。这样,您可以减少分类器的过度拟合。但是,如果使用过采样方法(如SMOTE)生成人工数据,则可能会导致过度拟合。
  在开发AI解决方案时必须考虑这一点。
  合成数据
  合成数据是指包含与“真实”对应物相同的模式和统计属性的虚假数据。基本上,数据看起来非常真实,几乎不可能看到它是假数据。
  那么,合成数据的含义是什么?如果我们获得了真实数据,我们为什么要这样做呢?
  在某些情况下,特别是当我们处理私人数据(银行,医疗保健等)时,使用合成数据实际上是一种更安全的开发方式。
  合成数据主要用于没有足够的实际数据,或者没有足够的实际数据用于特定模式。对于训练和测试数据集,其用法基本相同。
  合成少数过采样技术(SMOTE)和Modified-SMOTE是用于生成合成数据的两种技术。简单地说,SMOTE使用少量数据点,并在由直线连接的任何两个最近的数据点之间创建新的数据点。
  该算法计算特征空间中两个数据点之间的距离,将距离乘以0和1之间的随机数,并将新数据点放置在与用于计算的一个数据点之间的新距离处。
  为了生成合成数据,您必须使用训练集来定义模型,这需要验证,然后通过更改感兴趣的参数,您可以通过模拟生成合成数据。域/数据的类型非常重要,因为它会影响整个过程的复杂性。
  在我看来,当你启动一个AI项目时,问问自己是否有足够的数据来揭示你以前可能没有意识到的问题,这将有助于揭示你认为完美的业务流程中的问题。并且让您知道为什么这个问题是在企业中创建成功的数据战略的关键。

 

上海IT外包服务网 链接:http://www.linemore.com

>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部