本文是《10周入门数据分析》 系列的第五篇文章。
如果您想了解学习路线,请先阅读“10周计划”。
工众账号已更新第11篇文章。文章末尾提供了详细信息。
上周更新了两篇Excel学习文章,但有读者反映文字不够实用。我在这里解释一下。用语言详细解释每一步是非常困难的。如果你不这样做,你就真的无法写书。这篇文章就像一个指南,告诉大家为什么需要学习这个,主要应该学习什么,以及应该如何学习。我们尽力保存材料,因为深入的操作需要大家额外的时间。
有人建议制作一个视频,这很棒。精彩的!制定明年的计划。以下是一些我认为任何人都可以学习的视频,即使他们没有时间。
又到了年底了,这几天你的年终报告写完了吗?
现在回到正文,本文将讲解数据库知识。
初入职场、刚接触数据分析的人经常会问我做数据分析需要学什么,如何规划自己的学习路径。我告诉他: “如果你仍然擅长使用Excel,那么当你能够轻松地使用Excel 处理和分析一些小型数据集(具体表现)时,首先学习Excel 如果你有现成的常见函数公式并且熟练使用数据透视表、过滤、排序、绘图,然后学习SQL语言,然后用BI来分析,然后,到了一定阶段,如果以后想学习更多,可以开始学习R或Python。可以了解Spark等大数据框架。
为什么要学习Excel?
首先,Excel是最常用的数据分析和处理工具,功能极其丰富,提供了您稍后将在其他软件(SQL、BI、Python、R)中学习的基本功能。
Excel 是如此强大,以至于有些人可能想知道为什么他们需要学习其他工具。这是因为Excel 是菜单驱动的,因此很难实现自动化和重用功能。当然,使用VBA是编程,但VBA是一种基本可以用来办公的语言。这就是Excel在处理比较大的数据集时表现不佳、经常崩溃的客观原因之一。 (据说Excel 2013 及更高版本能够处理超过100 万条记录,但数万条记录时数据开始冻结。)
为什么学完Excel之后还要学SQL?
客观原因是大多数数据分析工作都需要SQL技能。为了保证数据安全和方便管理,企业内部的数据必须集中存储在数据库中,并且必须使用SQL语言从数据库中提取和查询数据。
另一个原因是,即使你首先学习R、Python 等其他工具,甚至Spark 等大数据框架,你最终也会发现你需要学习SQL。首先学习SQL 将帮助您在学习R、Python 和Spark 等更复杂的工具之前理解许多概念。对以后的学习很有用。这与建造房屋类似。先打好基础,再逐层打造。
除了Excel之外,学习SQL语言比其他工具更受青睐的另一个非常重要的原因是,虽然SQL可以解决Excel中的一些大数据集问题,但它也提供了一种手段,可以充当桥梁的作用。
学习数据库和SQL也分为两篇文章,第一篇涵盖数据库和表的概念。后半部分是学习SQL语句和数据库操作。
一、数据库基础知识
首先给大家讲一下我对数据库的理解。顾名思义,数据库是数据的集合,由数据表组成。
物理实体是写入磁盘上的一组包含数据的文件。这些数据最基本的形式是Excel 工作表,如下所示。
每个表都有唯一的标识符、主键或ID。 ID是数据库中的一个重要概念,称为唯一标识符/主键,用于表示数据的唯一性。这就相当于我们的身份证,身份证告诉我们我们的数据在哪里。
ID 通常没有商业意义,只是一个唯一的标识。每个表只有一个主键,一旦建立主键,其值通常就无法更改。
数据库是表的集合。一个数据库可以有多个表,每个表都可以命名,并且表之间可以相互关联。连接是指可以对数据进行相应的匹配,相应的操作在Excel中称为vlookup。
例如上面两张图,左边的图片是学生信息表,右边的图片是教师信息表。左图中的主键是学生ID,右图中的主键是教师ID。细心的读者可能会注意到右图中的学生证。这里的学生ID是专门用来加入用户表的。这两个表通过一条独特的信息简单地关联起来:学生ID。
但是,两个表之间的关系并不是一一对应的信息,可能存在差距,例如:
连接两个表如下所示:
一旦理解了上述概念,您就会明白什么是关系数据库。简单来说,它是由多个可以相互连接的二维行表和列表组成的数据库。在准备数据时,通常需要建立表关联以进行分析。
关系数据库是基于关系代数模型开发的。常用的关系数据库包括SQL Server、MySQL、Oracle 和DB2。这取决于您公司的使用情况。
各种关系数据库(不感兴趣请跳过):
DB2: 关系数据库适用于大型分布式应用系统。它在稳定性、安全性、恢复性等方面都是一个非常好的数据库,非常适合小型到大型应用程序。但使用起来非常麻烦,安装时有很多要求,而且很多软件会与DB2发生冲突。 DB2一般安装在小型机或者服务器上,所以安装在PC上是相当痛苦的。创建一个新的库需要设置很多东西并分配各种存储空间。
Oracle:是目前市场占有率最大的数据库。当我学习SSH时,我使用的是Oracle。安装起来非常繁琐,程序文件居然有3G。虽然它的配置非常简单,但是它拥有非常强大的数据字典,对于要求苛刻的企业级应用来说是最实用的数据库。我查了一下,发现很贵……
MS SQL:最初使用版本2000和2005,但这两个版本有很大不同。 2000数据库非常好,程序小,使用方便,各方面都是一个很一般的数据库。我的毕业设计。我个人觉得2005年他们增加了很多功能,变得更加复杂,风格像一个大型数据库,而且变得更加昂贵。除非您使用的是Windows Server 系统或针对Microsoft 产品。我们建议使用Oracle。
MySQL: MySQL 是一个免费、功能齐全且功能强大的关系数据库。现在很多网站都使用MYSQL,但是MS SQL更胜一筹。差不多一样。
我认为Access:可以用作会计、笔记等的独立系统。在局域网上运行小型系统非常容易。 Windows是一个Office数据库,因此它有自己的数据源。
有关数据库详细信息,请参阅《数据库系统概论》。
二、尝试使用MySQL数据库
如果您不熟悉数据库和SQL,我们建议您尝试下载并安装MySQL Data。 MySQL 数据库的下载和安装相对容易,安装完成后即可使用。
您可以访问MySQL官网下载。网址为(这里显示的是Windows版本的下载地址):
“关联”
下载MySQL需要免费注册,注册页面为英文。下载工具后,点击运行,程序会自动在线安装和配置MySQL。在安装过程中,您需要设置密码,并且需要您自己设置登录密码。请记住,下次登录MySQL 时将需要此密码。
解压后没有my.ini文件(端口设置为3308)。截图是我添加的。
管理员命令行:
在MySQL 安装目录的bin 目录中运行该命令。
mysqld --初始化--console
我得到以下结果:
我收到警告并检查了mysql,它建议使用utf8mb4。
修改my.ini文件
警告消失,上面打印默认密码:njuUJkpH4/I
接下来,安装服务。
mysqld --安装MySQL8.0
由于这是计算机上的第二个mysql,因此服务名称已更改为MySQL8.0。
请启动服务:
网络启动MySQL8.0
更改初始密码
登录mysql后,运行:
更改用户'root'@'localhost' 通过mysql_native_password 识别为'123456';
将MySQL连接到Excel或其他数据分析工具
默认安装时,它包含一个插件,允许您将MySQL 数据库连接到Excel。请尝试想象一下。通过SQL语言在MySQL数据库中对大量数据进行处理和计算,并将计算结果存储在特定的数据中。创建表格,使用Excel连接MySQL数据库,将数据加载到Excel中,并使用Excel进行分析和绘图,省去了从数据库导出数据再导入Excel的麻烦,是不是效率会更高呢?
稍后我会分享一篇文章,介绍如何通过ODBC驱动连接一些报表和BI工具进行分析。
学习MySQL推荐书籍《MySQL必知必会》。
关于学习计划
最近,我的公众号【数据分析不是事】策划了一系列文章《10周入门数据分析》,以教科书的形式教你如何入门数据分析。
本文是该系列的第5篇,目前在工众网已更新至第11篇。
点击“查看更多”关注我们。
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。