任务二 掌握数据化运营所需的工具和技能
任务描述
小赵完成了销售数据的分析工作后,接下来将对市场数据进行分析。由于咖啡市场是千变万化的,咖啡的需求量也在不断地变化,因此小赵需要先采集市场数据,然后再对数据进行处理和分析。小赵明确了本次的任务(见表1-3)后,便着手进行数据的采集和处理工作。
表1-3 任务单
知识准备
一、数据采集工具
数据采集又称数据获取,是指通过数据采集工具将庞大、复杂的单个数据,整理成符合需求的数据集,如图1-10所示。为了高效采集数据,依据采集环境和数据类型选择合适的数据采集工具至关重要,常见的数据采集工具有集搜客和八爪鱼采集器两种。
图1-10 数据采集
(一)通过集搜客采集数据
集搜客是一款专业的网页数据采集/信息挖掘处理软件,它可以轻松抓取网页文字、图片、表格、超链接等多种网页元素,并最终得到规范化的数据。使用集搜客之前,需要在集搜客官方网站中下载并安装“数据管家”爬虫软件,如图1-11所示。待爬虫软件安装完成后,双击计算机桌面上的数据管家图标,进入集搜客官网。注册成为集搜客会员后,单击按钮,在打开的页面中选择要采集的网站和页面,并输入具体的采集网址,如图1-12所示,单击按钮,便可开始采集数据。
图1-11 “数据管家”爬虫软件下载页面
图1-12 输入采集网址
(二)通过八爪鱼采集器采集数据
八爪鱼采集器是一款网页数据采集软件,具有使用简单、功能强大等特点。该软件提供了模板采集、自动识别采集、手动采集等不同的采集模式,是广受青睐的数据采集器之一。使用八爪鱼采集器之前,首先需要在八爪鱼官方网站中下载软件,然后将其安装到计算机中,安装完成后,打开八爪鱼软件并注册成为会员,便可使用该软件采集网页数据了。
1. 模板采集
此模式可直接利用八爪鱼采集器内置的各种采集模板,实现快速采集数据的目的。在八爪鱼采集器中单击左侧列表中的“模板”按钮,打开“采集模板”页面(见图1-13),在其中单击所需要的采集模板后,进入“模板详情”页面,单击按钮,如图1-14所示。在打开的页面中设置此次采集的任务名、任务组,并配置模板参数,完成后即可采集并保存数据。需要注意的是,八爪鱼采集器提供的部分模板需要升级为套餐用户才能正常使用。
图1-13 “采集模板”页面
图1-14 单击“立即使用”按钮
2. 自动识别采集
当八爪鱼采集器内置的模板无法满足采集需求时,可以通过自定义采集的模式采集数据。在八爪鱼采集器首页中单击按钮(见图1-15),打开“任务:新建任务”页面,在“网址”文本框中输入要采集数据的网址后,单击按钮(见图1-16),便可进行采集操作。使用这种采集模式时,八爪鱼采集器会自动识别网页内容,识别完成后根据需要修改采集的页数、字段等信息,然后开始采集和保存数据。
图1-15 单击“新建自定义任务”按钮
图1-16 单击“保存设置”按钮
3. 手动采集
当自动识别无法采集正确的数据时,可取消自动识别,并手动添加采集字段进行手动采集。手动采集的关键在于正确采集需要的数据对象,这将涉及循环、翻页等参数的设置,如图1-17所示。
图1-17 添加采集字段并设置循环等参数进行手动采集
素养小课堂
采集数据必须合法合规,特别是除了企业内部和企业调研的数据外,在从其他途径采集数据时,采集人员必须遵守法律法规和道德伦理规范,要有良好的道德操守,不得采集禁止采集的数据,并应对采集的数据承担保护义务。
二、数据处理工具
采集到的数据往往需要经过整理和加工等处理操作才能成为后期分析工作的数据源。常用的数据处理工具有Excel和Python两种,如表1-4所示。一般来说,如果处理的数据量不大,可以使用Excel;如果数据量较大,则应选择Python。下面重点介绍使用Excel处理数据的方法。
表1-4 常用的数据处理工具
使用Excel处理数据的操作主要包括数据整理和数据加工两个方面。
(一)数据整理
采集数据后,往往需要将数据内容整理为所需要的信息,才能使采集的数据具备分析价值。总体来看,数据整理工作主要包括内容整理与格式整理两大方面。
1. 内容整理
采集到的数据可能存在值缺失、错误或重复等情况,针对不同的情况,有不同的整理技巧。
(1)缺失值整理。如果能够判断缺失数据的内容,就应该考虑进行手动修补;反之,则可考虑用合理的值代替缺失值;另外,如果采集到的数据量足够大,且能够确保删除缺失值后并不影响所采集数据的效果,就可以考虑将缺失值删除。
(2)错误值整理。在Excel中每一种错误值都会提示出错原因,根据出错原因,可以快速定位错误位置,以修正、解决错误。表1-5所示为Excel中常见的错误提示信息及其产生原因和解决方法。
表1-5 Excel中常见的错误提示信息及其产生原因和解决方法
提示
有些数据还需要注意逻辑错误的问题。例如,用户年龄300岁、消费金额-50元等不合理的数据;用户出生年份为2000年,但当前年龄却显示为10岁等自相矛盾的数据;要求只能购买1件商品,但购买数量却显示为5件等不符合规则的数据等。要发现这类数据,需要运营人员具备扎实的专业知识和行业敏感度,以及认真、细致的工作态度。
(3)重复值整理。如果采集的数据存在完全或部分重复的情况,可以利用Excel的条件格式、排序、函数与公式、数据透视表等功能筛选重复的数据,然后使用删除重复项、函数等功能删除重复数据。
2. 格式整理
采集到的数据往往格式不统一。例如,日期数据中有“2023年8月23日”的显示方式,也有“2023-8-23”的显示方式等,这时就需要将其整理成相同的显示方式,以提高数据质量。在Excel中,可以充分利用数据格式设置及查找和替换功能进行格式的整理。
(1)设置数据格式。选择需要统一数据格式的单元格区域,在【开始】/【数字】组中单击右下角的“展开”按钮,打开“设置单元格格式”对话框,在“数字”选项卡的“分类”列表框中选择数据类型,此处选择“货币”选项,然后在右侧的界面中进一步设置所选数据类型的格式,如图1-18所示,完成后单击按钮。
图1-18 设置数据格式
(2)查找和替换数据。若需要统一的内容不是某种数据格式,则可利用查找和替换功能进行统一修改。例如,需要将“已 付 货 款”统一为“已付货款”,则可在【开始】/【编辑】组中单击“查找和选择”按钮,在弹出的下拉列表中选择“替换”选项,或直接按【Ctrl+H】组合键,打开“查找和替换”对话框,在“替换”选项卡的“查找内容”下拉列表框中输入“已 付 货 款”,在“替换为”下拉列表框中输入“已付货款”,然后单击按钮,如图1-19所示。
图1-19 查找和替换
(二)数据加工
数据加工是指整理完采集的数据后,为了便于后期分析工作的开展,在Excel中对数据进行计算、排列、筛选、汇总、转化、分组、合并等操作。需要注意的是,数据是否需要加工,应该按照后期数据分析的需求来决定,并不是必须执行的。
(1)计算数据。如果数据分析时需要的数据源是通过采集的数据计算而来的,则可利用Excel的公式和函数进行计算加工。无论是公式还是函数,在Excel中都需要先输入“=”,以区别于其他普通数据。其中,公式可以由常量、运算符、单元格引用、函数等对象组成;函数则是具有某种语法格式的特殊公式,如SUM函数就是数学和三角函数的结合,它可以将数值相加。
(2)排列数据。排列数据是指按照某个规则将采集到的数据进行排序,如采集的是产品的交易数据,则可以以销售额为排列规则,按从高到低的顺序进行排列。
(3)筛选数据。筛选数据是指按指定的条件,将不符合条件的数据隐藏起来,表格中暂时显示所有符合条件的数据。在Excel中,可以执行自动筛选、高级筛选等多种筛选操作。
(4)数据汇总。数据汇总是指将同类的数据进行汇总处理,统计其总和、平均数、数量、最大值、最小值等。在Excel中,可以通过分类汇总功能实现对数据的分类和汇总操作。
(5)数据转化。数据转化是指将数据从一种表现形式转变为另一种表现形式。例如,转化表格的行列结构,将一列数据拆分为多列等。
(6)数据分组。数据分组是指根据统计研究的需要,将原始数据按照某种标准分组。例如,采集的是产品的交易数据,可以按照产品的品类、产品的销售月份等进行分组。
(7)数据合并。数据合并是指将某几个数据字段合并成一个新的字段,此时可以使用CONCATENATE函数、连接符“&”、DATE函数进行字段合并操作。例如,采集到的产品列表信息中,若单价的数值和金额符号分别存在于不同字段,则可以使用合并功能将其显示在同一字段中。
三、数据化运营所需的技能
数据化运营需要经历数据处理、数据整合、数据分析、数据展现等过程。因此,作为一名合格的运营人员,需要具备数据处理能力、数据分析能力、数据呈现能力和数据决策能力4种基础能力。
(一)数据处理能力
数据处理能力是指合理收集、整理、描述、分析所获得的数据,从中提取出有价值的信息,并最终做出合理推测的能力。具备数据处理能力即具备数据获取、数据存储与数据预处理的能力。
(二)数据分析能力
数据分析能力是指能够使用合适的统计分析方法,对收集的大量且复杂的数据加以汇总、理解并消化,然后从中抽取出有价值的信息并推导出结论,最终对数据做出进一步研究和概括、总结的能力。从运营层面来说,数据分析能力主要是指通过数据思维,把业务问题转化成不同类型的数据指标,并运用一定的数据分析方法分析业务,从而有效、系统地解决问题。
(三)数据呈现能力
数据呈现能力是指借助数据呈现工具(如Power BI等),运用表格、图表、图形等方式,将业务信息与决策方案清晰、明确地展现出来的能力。其中,用图表方式呈现数据是较直接且常用的方法,常见的图表类型包括条形图、柱形图、面积图、饼图、折线图、金字塔图等,如图1-20所示。此时运营人员需要根据不同的图表关系选择合适的图表来明确表达数据信息,表1-6所示为Excel中部分图表关系及选择策略。
图1-20 常见图表类型
表1-6 Excel中部分图表关系及选择策略
知识拓展
Power BI是一款商业智能分析软件,它支持数百种数据源,支持直接从网页中抓取数据,可以用来创建交互式报表和仪表板,能够让复杂、繁多的数据变得生动美观。图1-21所示为使用Power BI创建的销售数据分析可视化图表。
图1-21 使用Power BI创建的销售数据分析可视化图表
(四)数据决策能力
数据决策能力是指能基于数据进行科学决策,进而让数据产生价值的能力。具备数据决策能力不仅能快速响应外界的变化,而且能够对外界变化数据与大量历史数据一起进行深度分析,并能及时从相关的数据中搜索、挖掘出数据的潜在价值,以满足特定时间、地点、场景的需求,最终为业务需求提供解决方案。
素养小课堂
要想成为一名优秀的运营人员,熟练掌握相关工具和技能是基本前提。此外,学习需要从被动变为主动,主动学习不仅可以体会到学习的乐趣,而且能快速增长知识,完善知识体系。
任务实施
任务演练1:使用集搜客采集咖啡数据
【任务目标】
在KK旗舰店的主要销售渠道——京东商城中搜索速溶咖啡,使用集搜客采集搜索结果页面的信息,从中获得速溶咖啡在京东商城中的搜索数据,然后将数据下载到计算机中,以备后续分析之用。
【任务要求】
本次任务的具体要求如表1-7所示。
表1-7 任务要求
【操作过程】
(1)获取并复制需采集数据的网址。通过浏览器访问需要采集数据的网页,这里在京东商城中搜索“速溶咖啡”,打开搜索结果页面,然后选择网页地址栏中的网址,按【Ctrl+C】组合键复制网址。
微课视频
使用集搜客采集咖啡数据
(2)登录会员中心。双击计算机桌面上的数据管家图标,进入集搜客后,单击左下角的按钮,在打开的对话框中输入账号和密码,单击按钮,如图1-22所示。
图1-22 登录集搜客
(3)新建采集任务。进入集搜客首页,单击右下角的按钮,打开“快捷采集”页面。在“网站”栏中单击按钮,在展开的列表中选择“京东”选项,然后在“页面”栏中选择“京东商品搜索列表”选项,如图1-23所示。
图1-23 新建采集任务
(4)输入采集网址。在页面下方的“网址”文本框中按【Ctrl+V】组合键粘贴第(1)步中复制的网址,然后单击按钮,如图1-24所示。集搜客默认只获取1页的数据信息,如果想获取更多的数据信息,可以在“网址”文本框右侧的“页数”下拉列表中进行选择。
图1-24 输入采集网址
(5)打包数据。此时集搜客将访问该网页,并自动识别网页中的数据,待显示“结束状态”选项卡后,单击“快捷采集”选项卡,打开的页面中显示了快捷采集的相关信息,这里单击第一项采集任务对应的按钮,如图1-25所示,会打开提示对话框。
图1-25 打包数据
(6)设置打包数据的条数。打开的提示对话框提示本次采集的数据可以打包的条数,根据实际需求输入具体的数字,这里输入“40”,然后单击按钮,如图1-26所示。
图1-26 设置打包数据的条数
(7)下载采集数据。打开“快捷采集”页面中的“数据下载”选项卡,单击按钮,如图1-27所示。在打开的对话框中保持文件名和保存位置不变,单击按钮,即可将采集的数据以Excel文件的形式保存到计算机中(配套资源:\效果文件\项目一\任务二\京东商城速溶咖啡数据.xlsx)。
图1-27 下载采集的数据
提示
通过集搜客采集的网页数据,最终将以压缩文件的形式下载到计算机中,若要使用采集到的数据,需要先将其解压。
技能练习
尝试使用八爪鱼采集器采集在京东商城中搜索到的咖啡产品列表信息,然后比较两种不同采集工具所采集到的数据是否存在差异,以及哪一种工具采集的数据更加准确。
任务演练2:利用Excel处理采集的数据
【任务目标】
在Excel中观察咖啡产品数据,找到无用字段后将其删除;然后对字段进行重命名,并查找和替换文本;最后将数据按“商品价格”排序,便于后续处理数据。
【任务要求】
本次任务的具体要求如表1-8所示。
表1-8 任务要求
【操作过程】
(1)解压采集的数据。在计算机中打开保存采集数据的文件夹,然后双击压缩文件,在打开的窗口中单击“解压到”按钮,打开“解压路径和选项”对话框,单击按钮,将文件解压到指定位置。
微课视频
利用Excel处理采集的数据
(2)删除无用字段。双击解压后的文件,打开采集的产品数据表格,发现表格中前4列数据无用,可以删除。选择A列至D列单元格,在【开始】/【单元格】组中单击“删除”按钮,如图1-28所示。
图1-28 删除无用字段
(3)重命名字段。继续观察剩余数据,发现A列字段名称为英文,其余字段的名称均为中文,为了统一,需要将英文名称更改为中文名称。选择A1单元格,输入文本“采集日期”,然后按【Enter】键,如图1-29所示。
图1-29 重命名字段
(4)查找和替换数据。继续观察表格中的数据,发现部分品牌名中英文混杂、名称重复。在【开始】/【编辑】组中单击“查找和选择”按钮,在打开的下拉列表中选择“替换”选项,打开“查找和替换”对话框,将“旧街场(OLDTOWN)”替换为“旧街场”,“雀巢(Nestle)”替换为“雀巢”,“catfour”替换为“蓝山”,“catfour蓝山”替换为“蓝山”,“西贡(SAGOCOFFEE)”替换为“西贡”,“星巴克(Starbucks)”替换为“星巴克”,“"速溶咖啡"”替换为“速溶咖啡”等,如图1-30所示。
图1-30 查找和替换数据
(5)排序表格数据。按【Ctrl+H】组合键,打开“查找和替换”对话框,在“替换”选项卡的“查找内容”文本框中输入“¥”符号,然后单击按钮,将“商品价格”字段中的“¥”符号删除。选择E列中的任意单元格,在【数据】/【排序和筛选】组中单击“升序”按钮,如图1-31所示,将数据按“商品价格”从低到高进行排列。
图1-31 排序表格数据
(6)自动调整单元格列宽。按【Ctrl+A】组合键全选表格内容,然后在【开始】/【单元格】组中单击“格式”按钮,在打开的下拉列表中选择“单元格大小”/“自动调整列宽”选项,如图1-32所示,此时单元格中隐藏的数据内容将全部显示出来(配套资源:\效果文件\项目一\任务二\处理后京东商城速溶咖啡数据.xlsx)。
图1-32 自动调整列宽