数据分析是产品经理的必备技能之一,今年有意在提升自己这方面的能力。为了系统地学习,花了 20 个小时左右的时间在 Coursera 上学完的《用 Python 玩转数据分析》。
课程简介
课程总共分为 5 周,评分 4.7 星(满分 5 星),每周需要花费 25 小时左右。学习完通过考试之后可以花 $29 购买证书。课程内容简单易学,适合完全无基础的新手,有 Python 基础但无数据分析经验的同学直接学习 week3 和 week4 即可。本文也仅记录和数据分析有关的部分。
课程目录
- Python 简单介绍,语法基础、基本运算、函数、包和模块的关系
- Python 的条件、循环、自定义函数、递归、变量作用于
- 数据获取,从本地和网络获取数据,简易爬虫
- 数据表示,序列、字符串、列表、元祖
- 字典和集合的使用
- 扩展库 SciPy ,ndarray、Series、DataFrame(重点)
- 数据准备、显示、选择、Group、Merge 等(重点)
- 聚类分析、Matplotib 绘图、Pandas 作图、其他领域的应用(重点)
- 面向对象
- 图形用户界面
Python 科学计算的生态系统 —— SciPy
SciPy 是为数学,科学,工程等领域开发的基于 Python 的一系列开源类库。官方网站为:http://www.scipy.org/。
SciPy 主要包括的核心模块有:
- NumPy,是 Python 科学计算的基础类库,包括多维数组对象、复杂的函数、线性代数傅里叶变换处理的能力等等,偏向于纯数学
- SciPy,SciPy 模块(SciPy Library)是 SciPy 集合(SciPy stack)的重要组件,提供了丰富的科学计算函数库,偏向于
- Matplotlib,Python 下流行的,成熟的 2D、3D 绘图类库
- Pandas,表格容器,提供高性能的数据结构
- SymPy,全功能的计算机代数系统
扩展阅读:NumPy 和 SciPy 之间的关系
SciPy 的安装
推荐使用 Anaconda 进行安装,支持 Win、Linux、Mac 操作系统,安装后直接包含所有需要的类库。
其他安装方式:
- Windows 下可以尝试 Python(x,y)、WinPython 等
- Linux 下可以尝试 apt-get 之类的包管理工具
- Mac 下 Homebrew,需要哪个模块时直接安装