python金融大数据挖掘与分析实验报告册(A99)

时间:2022-08-18 12:20:06 来源:网友投稿

下面是小编为大家整理的python金融大数据挖掘与分析实验报告册(A99),供大家参考。

python金融大数据挖掘与分析实验报告册(A99)

 

 广 广 州 商 学 院

 实验报告册 册

 信息技术与工程 学院 软工 专业

 年级

 班

 2019

 - 2020

  学年第

 学期

 课程名称:

 数据分析与处理实验

  姓

 名:

  学

 号:

  使用说明 各学院根据各门实验课需要双面打印实验报告,实验报告由学生按规定要求,认真独立填写。实验指导教师应重视指导学生撰写实验报告,对学生的实验报告应认真评阅批改,并按成绩评定的有关规定评出成绩。

 目 目

 录 实验一 ………………………………………………………………... 1 实验二 ………………………………………………………………... 5 实验三 …………………………………………………………………12

  1 广 广 州 商 学 院 实验报告(第 1 次)

 实验名称

 常用数据结构及数据分析相关库

 实验时间 2021.3.22

  同组同学

 小组分工

 一、实验目的

 1.掌握数据排序方法 2.掌握数据分组聚合方法 3.理解并比较 apply、agg、transform 方法的适用情况 4.能够学以致用,用所学方法解决实际问题

  二、实验仪器设备或材料

 Jupyter note book

 三、实验原理

 1.介绍数据排序方法过程 2.学习不同的聚合函数,并进行比较 3.在案例中运用聚合函数解决实际问题

  四、 实验内容与步骤

  请根据上课所学方法完成所给案例的以下问题:

  2

 问题一:将朝阳医院数据中的购药时间进行字符串拆分,把日期和星期拆出来,并将日期转换为对应的日期格式。(拆分后的结果输出前五行展示)(展示日期的数据类型是否为日期格式)

 问题二:在第一问基础上,计算购药时间距离 2021.3.9(今天)的天数并输出展示。

 问题三:将销售数量,应收金额和实收金额全部转换为数值型变量(整型或浮点型)。

 注意:应收金额和实收金额里特殊字符的处理

  3

  五、实验结果与分析

 Q1

  Q2

  4 Q Q3 3

 六、结论与体会

 取得了数据,并不能马上就开始进行数据分析。我们得到的数据通常并不是完全符合我们分析要求的,而且可能存在缺失值、异常值,这些数据都会使我们的分析结果产生偏差。所以在分析之前,需要进行子集选择、缺失数据补充、异常值处理、数据类型转换等多个步骤。这些都属于数据清理的范畴。

  七、教师评语

 优秀,该生能够完成列表重命名、数据类型转换和异常值处理,希望在数据清洗方面继续进步提高。

  5

 广 广 州 商 学 院 实验报告(第 2 次)

 实验名称

  数据预处理

  实验时间 2021.3.29

 同组同学

 小组分工

 一、实验目的

 1. 能够判断什么情况下数据属于重复值、并能够对不同情况下重复数据进行相应处理 能够使用替换法和插值法对缺失值进行处理

 2. 明确什么是异常值

 3. 掌握箱线图法和标准差法进行数据异常值检测 4. 能够利用盖帽法处理检测出的异常值 5. 能够学以致用,在实际案例中进行异常值的检测和处理

 二、实验仪器设备或材料

 Jupyter notebook

  6 三、实验原理

 1.理解何为异常值,以及异常值对数据分析的影响 2.学习异常值的判断和检查方法(标准差法、箱线图法)

 3.学习异常值处理方法:盖帽法 4.利用所学方法检测并处理“太阳黑子数”数据中的异常值

  四、实验内容与步骤

 请根据上课所学方法完成所给案例的以下问题:

 问题 1:在 Titanic 数据中,统计数据中每个字段的缺失情况,对 Age 采取中位数填补策略, Cabin 采取众数填补策略。

 问题 2:根据课上所学知识,查看 Age 是否有异常值情况,若有,请用盖帽法进行替换。

 问题 3:对 Age 采取离散化操作,分别用等宽分箱和等频分箱,将其离散成 5 段。

  7

  五、实验结果与分析

 Q1

  8

 Q2

  9

  10 Q3

  11 六、结论与体会

 数据中的缺失值会影响挖掘的正常进行,造成挖掘结果不正确。对较大比例的缺失值可以进行忽略处理,少量的缺失值可以采用最大、最小、均值、中位数、自定义表达式等方式进行填充。采用盖帽法处理异常值,并通过等宽分箱和等频分箱的方法把数据展现出来。

 七、教师评语

 优秀,该生能够完成数据缺失值、异常值的处理,并通过等宽分箱和等频分箱的方法把数据展现出来,希望在数据预处理方面继续进步提高。

  12

 广 广 州 商 学 院 实验报告(第 3 次)

 实验名称

 数据可视化

 实验时间

  2021.4.26

  同组同学

 小组分工

 一、实验目的

 1.了解 Matplotlib 库 2.掌握简单的饼图、条形图(垂直、水平)、直方图、散点图的绘制方法,并能够根据实际情况灵活调整参数 3.掌握图形基本设置,能够设置一些基本图形的图例、图像、网格线、水平参考线和参考区域等 4.有以不变应万变的思维和能力,以固有的方法,通过改动方法里的参数来解决不同情况的绘图问题

 二、实验仪器设备或材料

 Jupyter notebook

 三、实验原理

 1.介绍 Matplotlib 库,引导学生认识到要学习该库里的若干关键绘图函数,使数据分析结果以可视化的方式快速、直观地展示出来

  13 2.介绍绘制饼图、条形图(垂直、水平)、直方图、散点图的相关函数方法,并展示不同参数对绘图的作用 3.介绍图形的基本设置,展示图例、图像、网格线、水平参考线和参考区域等的设置方法,使图形结果展示更具有说服力或更美观

  四、实验内容与步骤

 请根据上课所学方法完成所给案例的以下问题:

 问题 1:

 在 Titanic 数据中,字段 Pclass 代表仓位等级,请用柱状图绘制出仓位等级的分布图。

 问题 2:

 在 Titanic 数据中, 请绘制出年龄的箱线图,并且展示异常值,均值和中位数等情况。

 问题 3:

 在 air_data 数据中,FLIGHT_COUNT 和 SEG_KM_SUM 分别代表飞行次数和总飞行里程。请用散点图绘制出飞行次数与总飞行公里数的关系。并且添加参考线,展示出飞行次数的均值和总飞行里程的均值。

  14 五、实验结果与分析

 Q1

  Q2

  15 Q3

 六、结论与体会

 Matplotlib 是 Python 的绘图库,其中的 pyplot 包封装了很多画图的函数。每个 Matplotlib.pyplot 中的函数会对当前的图像进行一些修改,例如:产生新的图像,在图像中产生新的绘图区域,在绘图区域中画线,给绘图加上标记,等等…… Matplotlib.pyplot 会自动记住当前的图像和绘图区域,因此这些函数会直接作用在当前的图像上。

  七、 教师评语

 优秀,该生能够完成绘制各种类型的分布图、线性图和散点图等,并清晰展示了问题中想要的数据,从图中让人们一眼就能看出想要表达的数据,希望在数据可视化方面继续进步提高。

推荐访问:python数据分析报告总结 python金融大数据挖掘与分析实验报告册(A99) 数据挖掘 实验 金融

版权所有:聚席文档网 2017-2024 未经授权禁止复制或建立镜像[聚席文档网]所有资源完全免费共享

Powered by 聚席文档网 © All Rights Reserved.。 沪ICP备17057996号-1