05.金融特征工程

特征工程

机器学习的特征工程技术是机器学习中的一个基本主题,但经常被忽视或看似简单。

05.金融特征工程

特征工程是选择、操作和将原始数据转换为可用于监督学习的特征的过程。为了使机器学习在新任务上运行良好,可能有必要设计和训练更好的特征。您可能知道,“特征”是可用于预测模型的任何可测量输入——它可以是物体的颜色或某人的声音。简单来说,特征工程是使用统计或机器学习方法将原始观察结果转换为所需特征的行为。

什么是特征工程?

特征工程是一种机器学习技术,它利用数据来创建不在训练集中的新变量。它可以为有监督和无监督学习产生新的特征,目的是简化和加速数据转换,同时提高模型的准确性。使用机器学习模型时需要特征工程。无论数据或架构如何,一个糟糕的功能都会对您的模型产生直接影响。

现在为了更容易理解它,让我们举一个简单的例子。以下是x市的房产价格。它显示了房子的面积和总价格。

05.金融特征工程
样本数据

现在这些数据可能有一些错误或不正确,并非互联网上的所有来源都是正确的。首先,我们将添加一个新列来显示每平方英尺的成本。

05.金融特征工程
样本数据

这个新功能将帮助我们更多地了解我们的数据。因此,我们有一个新列显示每平方英尺的成本。您可以通过三种主要方式找到任何错误。您可以联系房地产顾问或房地产经纪人并向他展示每平方英尺的价格。如果您的律师声明每平方英尺的价格不能低于 3400,您可能会遇到问题。数据可以可视化

05.金融特征工程

当您绘制数据时,您会注意到一个价格与其他价格明显不同。在可视化方法中,您可以很容易地注意到问题。第三种方法是使用统计数据来分析您的数据并发现任何问题。

特征工程包括的全部过程:

  • 特征创建:创建特征涉及创建对我们的模型最有帮助的新变量。这可以是添加或删除一些功能。正如我们在上面看到的,每平方英尺柱的成本是一个特征创造。
  • 转换:特征转换只是将特征从一种表示转换为另一种表示的函数。这里的目标是绘制和可视化数据,如果某些东西没有与新特征相加,我们可以减少使用的特征数量、加速训练或提高某个模型的准确性。
  • 特征提取:特征提取是从数据集中提取特征以识别有用信息的过程。在不扭曲原始关系或重要信息的情况下,这会将数据量压缩为可管理的数量,以供算法处理。
  • 探索性数据分析:探索性数据分析 (EDA) 是一种功能强大且简单的工具,可用于通过探索数据属性来提高您对数据的理解。当目标是创建新假设或在数据中找到模式时,通常会应用该技术。它通常用于以前未分析过的大量定性或定量数据。
  • 基准:基准模型是最用户友好、最可靠、透明和可解释的模型,您可以根据它来衡量自己的模型。运行测试数据集以查看您的新机器学习模型是否优于公认的基准是一个好主意。这些基准通常用作比较不同机器学习模型(如神经网络和支持向量机、线性和非线性分类器)或不同方法(如 bagging 和 boosting)之间性能的衡量标准。要了解有关特征工程步骤和过程的更多信息,请查看本文末尾提供的链接。现在,让我们看看为什么我们需要机器学习中的特征工程。

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/05-jinrongtezhenggongcheng/.html

(0)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2022年11月13日 下午3:42
下一篇 2022年11月14日 下午8:12

相关推荐

发表回复

登录后才能评论