为什么要降维？降维技术一览-睿象云平台

为什么要降维？降维技术一览

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

为什么要降维？降维技术一览

你遇到过特征超过1000个的数据集吗？超过5万个的呢？我遇到过。降维是一个非常具有挑战性的任务，尤其是当你不知道该从哪里开始的时候。拥有这么多变量既是一个恩惠——数据量越大，分析结果越可信；也是一种诅咒——你真的会感到一片茫然，无从下手。

面对这么多特征，在微观层面分析每个变量显然不可行，因为这至少要几天甚至几个月，而这背后的时间成本是难以估计的。为此，我们需要一种更好的方法来处理高维数据，比如本文介绍的降维：一种能在减少数据集中特征数量的同时，避免丢失太多信息并保持/改进模型性能的方法。

什么是降维？

每天，我们都会生成大量数据，而事实上，现在世界上约90%的数据都是在过去3到4年中产生的，这是个令人难以置信的现实。如果你不信，下面是收集数据的几个示例：

Facebook会收集你喜欢、分享、发布、访问的内容等数据，比如你喜欢哪家餐厅。

智能手机中的各类应用会收集大量关于你的个人信息，比如你所在的地点。

赌场会跟踪每位客户的每一步行动。

随着数据的生成和数据收集量的不断增加，可视化和绘制推理图变得越来越困难。一般情况下，我们经常会通过绘制图表来可视化数据，比如假设我们手头有两个变量，一个年龄，一个身高。我们就可以绘制散点图或折线图，轻松反映它们之间的关系。

下图是一个简单的例子：

其中横坐标X1的单位为“千克”，纵坐标X2的单位为“磅”。可以发现，虽然是两个变量，但它们传达的信息是一致的，即物体的重量。所以我们只需选用其中的一个就能保留原始意义，把2维数据压缩到1维（Y1）后，上图就变成：

792 2023-01-02

为什么要降维？降维技术一览