通常认为“数据分析”是以下学科的组合:1.计算机科学2.统计3.领域专业知识
学习课程:
一:计算机科学
计算机科学与编程入门(使用Python)
计算机系统工程:本课程涵盖有关计算机软件和硬件系统工程,控制复杂性的技术的主题;使用客户端-服务陵枣器设计,虚拟内存和线程的强大模块化;网络;并行活动的原子性和协调性;恢复和可靠性;隐私,安全性和加密;和计算机系统对社会的影响。
计算结构:数字系统工程简介。从MOS晶体管开始,该课程开发了一系列构件-逻辑门,组合电路和顺序电路,有限状态机,计算机,最后是完整的系统(包括硬件和软件)。
算法简介:它涵盖了用于解决计算问题的常见算法,算法范例和数据结构。
人工智能:本课程向学生介绍人工智能的基本知识表示,问题解决方法和学习方法。
使用C / C ++ / Java进行面向对象的编程
二:数理统计
应用数学:面向计算机科学和工程的离散数学简介。
概率与统计简介(使用R编程):本课程对应用中的概率和统计进行了基础介绍。主题包括:随机变量,概率分布,贝叶斯推断,假设检验,置信区间和线性回归。
线性代数(使用R编程或其他数学工具):本课程涵盖矩阵理论和线性代数
统计/机器学习(使用R编程):介绍数据分析的核心算法,例如线性和非线性回归的类型,分类技术,例如逻辑回归,朴素贝叶斯,SVM,决策树(香草决策树,随机森林,增强),无监督学习方法(例如聚类,神经网尺困拆络介绍)
高级机器学习(使用Python编程):专为对人工智能有浓厚兴趣的学生而设,侧重于图像/文本处理的神经网络。
三:领域专长
理想情况下,这些应该基于工作兴趣/领域,以便每个学生都选择一个专门领域(例如,Web开发,移动应用程序开发,数据分析,营销分析,供应链,财务,制造等)。
数据分析专业课程这里的核心主题应该是:
数据收集和清理:这应该包括使用开源工具(例如Python / R)从网上抓取数据,连接到数据库等。此外,数据清理和ETL概念(例如重复数据删除,合并,丢失的数据估计技术也无法创建)分析数据集。
数据可视化和报告:使用SAS / SAP或R / Python等工具创建BI仪表板,通过可视化和数据故事演示来展示见解并数据分析。
数据分析应用程序1/2:以业务为中心完成端到端数据分析项目。在最后几年中,应该重复两次该主题。它应该非常重要地包括连接到实际数据库和在生产中部署模型,而不仅仅是对静态数据集的临时数据分析。
高级数据计算:此处的学生应使用开源和专有工具(例如Hadoop / Spark,HANA或其他MPP数据库)创建具有大规模数据分析的项目
扩展阅读:
还将包括以下内容:
1. 网络工程基础。原因:毕业生应该了解计算机网络,以便能够与之合作,进行管理,并在需要时改善组织的网络和数据架构。主题包括:网络工程,数据库,数据仓库。
2. 研究方法论:能够使用定量和定性方法学从尺此假说生成到产生业务建议的系统方式设计项目。
3. 非结构化数据分析:学生应该了解文本挖掘,自然语言处理,社交媒体挖掘,网络挖掘以及此类应用程序的基础知识。这些也可以采用选修课的形式。
有一点需要注意的是,优秀的数据分析师和商业智能并不以工具为重点。理想地讲授任何工具(R / SAS / SAP / Python /其他),作为数据分析理论概念的补充。例如,使用统计和概率进行R编程。适用于神经网络和其他机器学习任务的Python。具有数据可视化和数据报告概念的SAS VA或SAP Lumira。具有数据库概念的SQL等。这是一个缺少许多新的数据分析程序的领域,因此结果是产生的毕业生只是应用程序开发人员或用户,而不能解决现实世界中的问题。