分享好友 最新资讯首页 最新资讯分类 切换频道
这4款数据自动化探索 Python 神器,解决99%的数据分析问题!
2024-11-07 22:07

这4款数据自动化探索 Python 神器,解决99%的数据分析问题!

探索性数据分析是一种非常重要的数据探索技术,用于了解数据的各个方面,这是执行任何机器学习或深度学习任务之前最重要的步骤之一。

探索性数据分析可以帮助识别明显的错误,区分数据集中的异常,发现重要元素,发现内部信息的设计并提供新的知识。

背景

在任何机器学习项目的生命周期中,我们在数据分析、特征选择、特征工程等环节耗费时间占整个项目的 60% 的以上,一方面它是数据科学项目中最重要的部分,另一方面它是必须要进行的,比如清理数据、处理缺失值、处理异常值、处理不平衡的数据集、等等,高效完成数据探索任务势在必行。

自动化探索性数据分析

今天我给大家分享4款自动化探索数据分析的顶级 Python 库,列表如下:

  • dtale
  • pandas profiling
  • sweetviz
  • autoviz
1、D-tale

D-tale 是一个在 2020 年 2 月推出的库,可让我们轻松可视化 pandas 数据框。它具有许多功能,对于探索性数据分析非常方便、支持交互式绘图、3d 绘图、热图、特征之间的相关性、构建自定义列等等。

安装

pip install dtale

首先,我们分享一个 d-tale 的案例

import dtaleimport pandas as pddf = pd.read_csv("data.csv")d = dtale.show(df)d.open_browser()

上述代码的输出如下所示:它提供许多选项,例如对数据进行排序、描述数据集、列分析等等,也可以自行查看此功能。如果单击"Describe",则会显示所选列的统计分析,例如平均值、中位数、最大值、最小值方差、标准差、四分位数等等。也可以自行尝试其他功能,例如列分析、格式、过滤器。如何相互关联呢?图表 - 建立自定义图表,如折线图、条形图、饼图、堆叠图、散点图、地质图等。这个工具非常方便,与使用传统的机器学习库(如 pandas、matplotlib 等)相比,它探索性数据分析更快。

2、Pandas Profiling

它是一个用 python 编写的开源库,生成交互式 HTML 报告并描述数据集的各个方面。关键功能包括处理缺失值、数据集的统计数据(如平均值、众数、中位数、偏度、标准差等),以及直方图和相关性等图表。

安装

pip install pandas-profiling

让我们深入研究使用这个库的探索性数据分析。使用示例数据集从 pandas 分析开始:

#importing required packagesimport pandas as pdimport pandas_profilingimport numpy as np#importing the datadf = pd.read_csv('sample.csv')#descriptive statisticspandas_profiling.ProfileReport(df)

下面是上述代码输出

这是一个数据分析报告,它返回数据集中的变量数量、行数、数据集中缺失的单元格、缺失单元格的百分比、重复行的数量和百分比。缺失和重复的单元格数据对于我们的分析非常重要,因为它描述了数据集的更广泛情况。该报告还显示内存的总大小。

变量部分显示特定列的分析。例如对于分类变量,将出现以下输出它提供对数值变量的深入分析,例如分位数、均值、中位数和、方差、单调性、范围、峰度、四分位间距等等。

描述变量如何相互关联,这些数据对于数据科学家来说是非常必要的。

3、Sweetviz

Sweetviz 是一个开源的 Python 库,用于获得可视化效果,只需几行代码即可用于探索性数据分析。该库可用于可视化变量和比较数据集。

安装

pip install sweetviz

让我们深入研究使用这个库的探索性数据分析,使用示例数据集开始

import sweetvizimport pandas as pddf = pd.read_csv('sample.csv')my_report  = sweetviz.analyze([df,'Train'], target_feat='SalePrice')my_report.show_html('FinalReport.html')
4、Autoviz

Autoviz 代表自动可视化,只需几行代码,就可以使用任意大小的数据集进行可视化。安装

pip install autoviz

可视化

from autoviz.AutoViz_Class import AutoViz_ClassAV = AutoViz_Class()df = AV.AutoViz('sample.csv')

【这4款数据自动化探索 Python 神器,解决99%的数据分析问题!】的全部内容了,欢迎阅览 ! 文章地址:http://mip.riyuangf.com/news/1530.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流网资讯 http://mip.riyuangf.com/mobile/ , 查看更多   -->

最新文章
【系统架构设计】计算机网络
OSI/RM 结构模型 1977年,国际标准化组织为适应网络标准化发展的需求,制定了开放系统互联参考模型(Open System Interconnectio
全世界规模最大战争排名,第一名居然是清朝时期!
自打人类走上进化这条路,就想着法儿想要证明【一伙人就该被另一伙人支配】。古罗马角斗士时代一方有多大势力,就看他有多少人的
python tk随机内容生成器
MyRandom ran=new MyRandom();System.out.println(ran.nextString(1));System.out.println(ran.nextString(50, OnlyNum));System
ai自动写文章在线 在线写文章自动生成器
身为文案工作者,我深感写作之重要且充满挑战。如今,随着人工智能(AI)写作平台的出现,我的写作历程出现了巨大变革。在此,很
AI写系统性综述ChatGPT还远远不够未来百年能否实现
在科学研究的浩瀚海洋中,科研人员时常面临一个棘手的问题:如何有效整合和理解海量的科学文献。尽管网络的普及极大地丰富了文献
全球AI半导体技术排名:韩国强势第三,未来发展值得关注
近年来,人工智能(AI)技术的迅猛发展促进了相关硬件的创新,尤其是AI半导体的需求日益上升。根据最新的研究报告和韩国媒体的报
MVSO影视程序源码 影视自动采集_魔改超强SEO_自定义苹果cms资源站接口
?php// +----------------------------------------------------------------------// | ThinkPHP [ WE CAN DO IT JUST THINK ]/
多地楼市政策不断优化 房地产市场企稳态势渐明
原标题:多地楼市政策不断优化 房地产市场企稳态势渐明来源:人民网近日,海南省住房公积金管理局发布《关于调整优化住房公积金
新澳正版资料免费大全,词语作答释义解释汇总
随着互联网的普及和在线信息资源的丰富,人们对于各类资料的需求日益增长,在新时代,获取正版资料显得尤为重要,本文将介绍新澳
揭秘快速排名SEO软件,网站高效提升排名的秘密武器
快速排名SEO软件,是网站提升排名的得力助手。它通过优化关键词、内容布局和链接策略,帮助网站在搜索引擎中迅速提升排名,实现