导读:本文将讨论Excel、PDF等文件的读取,以及相应函数的参数设置。
作者:刘健 邬书豪
如需转载请联系华章科技
下图总结了主要程序包,希望读者在日常练习和工作中遇到不同格式的文件时,能够瞬间反应出读取该格式所需的包及对应的函数。(限于篇幅,本文未包含图中“平面文档格式”这部分的内容,如果你有兴趣,可以继续关注大数据后续文章。)
▲不同格式的数据文件读取所用的R包
01 readxl:Excel文件读取
readxl是微软Excel文件读取的必备R包,是Hadley Wickham、Jennifer Bryan以及其他6名成员合作完成的经典程序包之一。
值得一提的是,该包的**者之一兼实际维护者Jennifer Bryan(网络上多称她为Jenny Bryan),可以称得上是与Hadley齐名且为数不多的女性R语言神级人物。可能是因为其身为大学教授,因此她总能够用很生动有趣的**将复杂的问题简化成通俗易懂的知识传递给“小白”,强烈建议有英文基础的读者能够搜集一些她的主题演讲或者书籍。
更新后的readxl包中虽然也还是只有5个函数,不过功能却比以前的版本更强大了。对于起初的版本,数据会被读取成常见的data.frame格式,而对于现在的版本,读取后的数据集格式则为tibble,可以理解为提升版的data.frame。
readxl包括两个探测性函数excel_format和excel_sheets,一个引用例子的函数readxl_example,新加入的读取特定单元格的函数cell-specification以及最重要的read_excel函数。本节将着重讨论read_excel的参数设置及用法**。
数据导入函数read_excel主要参数及功能对照:
path数据文件路径+文件名,也可以是一个urlsheet工作表序号或名称,默认值为第一个工作表range读取指定区间,可以限定函数读取原始Excel文件的范围,例如,“A1:D100”会读取这个区间中的所有单元格,包括空白单元格。“工作表1!A1:D100”会读取名为“工作表1”中的该区间。这个参数的优先级高于参数 'skip'、'n_max'、'sheet'col_names该参数具有三个选择,具体如下。1)为真(TRUE),原始数据文件的第一行被用作列名,且不在数据集内。2)为假(FALSE),数据列名被自动赋值成X__1、X__2、X__3等。3)自定义字符串向量传给参数。此时字符串向量会被用作列名,而原数据文件的第一列将被保存到数据集的第一列。如果有默认列名的话,则会发出**告,并自动赋值成X1、X2、X3等,但不会影响读取**。重复的列名也会发出**告,并且会在重复列名前加数字序号以做区分col_types列数据类型。可以有两种传参形式,具体如下。1)NULL,默认值。函数会自动解析每一列数据的类型。2)指定变量类型。字符串参照为:"skip"、"guess"、"logical"、"numeric"、"date"、"text"或"list"。需要注意的是,如果仅指定一个数据类型(例如,"numeric")那么所有的变量都会被读成字符型数据。如果指定一列为"skip",那么这一列就不会被读取到R中来。新**的"list"属性对处理有经纬度的变量列将会有很大帮助na原始数据文件中是否有一些字符需要用na来代替。空白单元格被默认作为默认值trim_ws每个数据值前后的空白是否处理掉,取值为真或假skip是否跳过几行读取原始数据文件,默认取值为0,表示不跳过;可以传参任意数字n_max最大读取行数
首先还是需要加载readxl包。尽管Hadley从2017年开始就一直在网络上宣传这个包已经属于tidyverse的一部分,但用户还是必须手动单独加载这个包。加载readxl包代码如下:
> library(readxl)
readxl包自带示范文件,使用函数readxl_example可以查看文件名字,以及获取文件路径,代码如下:
> readxl_example() [1] "clippy.xls" "clippy.xlsx" "datasets.xls" "datasets.xlsx"[5] "deaths.xls" "deaths.xlsx" "geometry.xls" "geometry.xlsx"[9] "type-me.xls" "type-me.xlsx"
获取示例文件的路径,可以先复制readxl_example函数运行后的结果,然后将其粘贴到read_excel函数的path参数中。
下面的代码演示函数嵌套的**,这种嵌套的代码书写**能够在一定程度上简化代码和**命名中间产物的**。不过嵌套过多会使可读性变差,一般推荐只嵌套两层。将读取后的数据保存在iris中,执行str函数之后将会发现除了经典的data.frame之外,数据集还有另外两种类别,tbl_df和tbl。函数嵌套的示例代码如下:
> iris <- read_excel(path = readxl_example(path = "datasets.xlsx")) > str(iris) ## Classes 'tbl_df', 'tbl' and 'data.frame': 150 obs. of 5 variables:## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...## $ Species : chr "setosa" "setosa" "setosa" "setosa" ...
之所以命名为iris,是因为这个范例Excel文件中的第一个工作表就是该经典数据集。函数excel_sheets可用于查询同一个文件中的工作表名称,其实现代码具体如下:
> excel_sheets(path = readxl_example(path = "datasets.xlsx"))## [1] "iris" "mtcars" "chickwts" "quakes"
在datasets.xlsx中一共存在4个工作表,其中包含了4个最经典的R语言练习数据集。在此,希望读者可以自行浏览这几个数据集,对数据集的格式、变量名称等情况有一定程度的了解。
**参数sheet或range可以读取指定工作表中的数据。这里需要注意的是,上文提到了参数优先级的问题。对于一般常见的练习数据集,sheet参数指定的工作表已足够胜任。读者只需要记住range参数可以用来处理特殊情况,也就是说,当设置sheet后依然对读取到的数据不满意的情况可以考虑使用range。
下面的代码演示了sheet的两种传参**:位置序号和名称。推荐读者采用后者。因为工作表被意外拖拽导致位置调换的情况常有发生,而位置意外发生调换之后读取的数据也会不同,这就**了代码崩溃的风险。如果使用名称,则会**发生错误的几率。示例代码如下:
> mtcars <- read_excel(path = readxl_example(path = "datasets.xlsx"),sheet = 2)> mtcars <- read_excel(path = readxl_example(path = "datasets.xlsx"),sheet = "mtcars")
对于后面的参数,读者可以根据上文的解释,每次**一个参数,来逐步**每一个参数的功能,这里不再赘述。
02 DBI:数据库数据查询、下载
在使用R语言和数据库进行交互之前,读者们需要明确一个问题—是否有必要使用R来处理数据。简单的数据处理任务,比如数据查询、筛选和简单运算,相应的数据库语言应该是比R语言更好的选择。
不过当你对数据库语言并不熟悉,而且需要R语言强大的统计**和绘图**来处理数据库中的数据时,DBI包绝对是一条捷径。因为Hadley大神再一次拯救了“小白”。
有了DBI包,不需要了解数据库交互中各个环节繁琐的理论知识和**,只需要明白如何通过DBI包来建立数据库连接、查询和读取数据即可。不过,这个包也并非万能钥匙,想要无**地与数据库进行交互,以下6点是必备的前提。
已知数据库的类型,例如,MySQL、PostgreSQL。已经安装了相应数据库类型的R包。数据库服务器地址。数据库名称。接入数据库的权限、账号和密码。已安装dplyr包用来本地化数据库中的数据。
使用R与数据库进行交互的一般流程为:建立连接→发送查询请求→获取相关数据。下面,我们用PostgreSQL的数据库作为代码示例。首先加载三个必备程序包,其中,DBI和PostgreSQL将用来建立与数据库的连接以及发送请求。dplyr则是用来将数据库中的数据保存到本地。加载代码具体如下:
> library(DBI)> library(dplyr)> library(RPostgreSQL)
不同类型的数据库可能需要**dbConnect中的参数,具体****读者可以参见帮助文档。数据库服务器地址、名称、权限等信息需要输入到单引号中,请一定留意是否有空格符号不小心被复制或者因误操作输入其中。如果担心密码泄露的话,则可以使用RStudio中自带的密码弹窗功能。
dbListTables函数可以用来查询数据库中的详细内容,并以字符串向量的格式返回,如果数据库中无内容,则会返回空值。**dbConnect参数的示例代码如下:
> db_connect <- dbConnect(RPostgreSQL::PostgreSQL(),dbname = '数据库名称',host = '服务器地址',user = '用户名',password = "密码") > dbListTables(db_connect) ## [1] "MetaData" "Table1" "Table2"
优化后的tbl函数可以直接调取已经建立连接的数据库中的指定数据,并保存为tibble格式的数据集。下面的代码中,逗号后面的参数也可以用“Table1”或“Table2”来表示:
> tbl(src = db_connect, dbListTables(db_connect)[1])
数据库交互的有关内容完全可以独立成书,这里我们只介绍了最简单的基本用法,以使大家对如何使用R来查询数据库有个最基本的印象。
03 pdftools:PDF文件
学术期刊、网络**和电子书籍一般都会以PDF格式的文件呈现。一般的计量型数据**很少会遇到读取PDF文件的情况,不过在进行文本挖掘(Text Mining)和主题模型(Topic Modelling)预测中,pdftools包绝对是必备R包之一。
该包只有两个母函数,一个用来从PDF中提取数据(此处的数据包括数字型和文字型数据),另一个则用来将文件渲染成PDF格式。本节我们只讨论第一个母函数——pdf_info。
pdf_info函数下面一共包含6个子函数,功能各不相同。但是6个子函数的参数完全一致,分别是pdf、opw和upw。
数据导入函数'pdf_info子函数一览:
pdf_info:读取PDF文件的基本信息,例如,何时创建、更改,版本信息,是否有密码,页数等,详见代码演示部分pdf_text:提取文件中的所有文字或非文字信息,包括分页符、换行符pdf_data:提取数字型数据,这个提取的结果会因PDF文件而异,有时可以直接将期刊中的数据完整地提取出来,有时又会因为PDF文档在创建时使用了不一致的分隔符而导致数据提取不完整pdf_fonts:提取文档的字体信息pdf_attachments:提取文档附件pdf_toc:提取文档目录
数据导入函数'pdf_info参数详解:
pdf:PDF文件路径,可以是网络链接opw:PDF文件所有者的密码upw:PDF文件用户的密码
由于篇幅有限,下面的代码只截取了部分结果进行解释。这里所用的PDF文档是pdftools包的帮助文档,读者可以自行到R官网上搜索下载。帮助文档是开放PDF文件,无须提供密码。读取文档代码如下:
> library(pdftools) > pdf_info(pdf = "./helpDocs/pdftools.pdf") ## $version## [1] "1.5"## ## $pages## [1] 5...
当使用pdf_text提取文档内容时,全部内容都被提取为一个字符串向量,每页的内容都被单独放置于一个字符串中。帮助文档的PDF格式一共包含5页,所以这里会**一个长度为5的字符串向量。
有两种**可用于查看提取的文本:可以直接将结果显示在console中(通过执行print(text)或直接运行text),也可以通过“[ ]”来指定显示某一页的内容。空白的位置都会以空格的字符格式显示,“\r\n”代表换行符号。提取文档内容的代码如下:
> text<- pdf_text("./helpDocs/pdftools.pdf") > length(text) ## [1] 5 > class(text) ## [1] "character" > text[1] ## [1] " Package ‘pdftools’\r\n May 27, 2018\r\nType Package\r\nTitle Text Extraction, Rendering and Converting of PDF Documents\r\nVersion 1.8\r\nDescription Utilities based on 'libpoppler' for extracting text, fonts, attachments and\r\n
该文档无附件,所以会显示一个空列表:
> pdf_attachments(pdf = "./helpDocs/pdftools.pdf")## list()
文档中一共包含了6种字体,pdf_fonts会给出字体的名称、类型、是否嵌入文档中这三类信息,具体如下:
> pdf_fonts(pdf = "./helpDocs/pdftools.pdf") ## name type embedded file## 1 DSHWTW+NimbusRomNo9L-Medi type1 TRUE ## 2 UTHPMJ+NimbusRomNo9L-Regu type1 TRUE ## 3 DSQFGA+Inconsolata-zi4r type1 TRUE ## 4 LVIJIF+NimbusSanL-Regu type1 TRUE ## 5 DQRZJT+NimbusRomNo9L-Regu-Slant_167 type1 TRUE ## 6 YIECHJ+NimbusRomNo9L-ReguItal type1 TRUE
目录读取的子函数会将所读取的内容返回到一个列表中,如果直接将该列表显示在console中很可能会让人感觉不知所云,读者可以自行实践。最好的办法是将读取的内容使用jsonlite包转换成json列表的格式进行显示,以帮助理解文档的架构。jsonlite包转换成json列表的示例代码如下:
> jsonlite::toJSON(x = pdf_toc(pdf = "./helpDocs/pdftools.pdf"), pretty = TRUE) ## {## "title": "",## "children": [## {## "title": "pdf_info",## "children": []## },## {## "title": "pdf_render_page",## "children": []## },## {## "title": "Index",## "children": []## }## ]## }04 jsonlite:JSON文件
JavaScript Object Notation(JSON)通常是作为不同语言之间互相交流信息的文件,JSON文件不但节省存储空间,其简洁明了的形式也很容易理解。
jsonlite包既能够完整地将JSON格式的文件完整地解析和读取到R语言中来,也可以将任何常见的R对象(object)输出成JSON格式。本文03节中,toJSON函数可用来将PDF文档目录转换成JSON格式,以便于理解各层级之间的关系。
读取JSON文件的fromJSON函数共包含6个参数,通常情况下,除了指定文件路径之外,其他参数使用默认设置即可。
数据导入函数fromJSON参数详解:
txt:可以是一段JSON格式的字符串,网络链接或者文件路径加文件名simplifyVector:将有序数组中的原始值强制转置成原子向量,可以简单理解为只保留数据,有真假两种设置,默认为真,如果设置为假,则数据会被读取为一个列表,列表中会包含子列表,子列表中会列出变量名和相应的数据值。详见代码演示部分simplifyDataFrame:将JSON数组中的记录强制转换成数据集(data frame)simplifyMatrix:将JSON数组中的向量强制转换成矩阵或数组flatten:自动将嵌套的数据集转换成非嵌套的平面数据集…:设置显示**
首先以JSON常见的数组形式创建一个字符串向量,保存为example。中括号代表数组的起始,双引号中代表值,值与值之间以逗号进行分隔,然后再用单引号将这一数组格式保存到字符串向量中。因为example中的数组是按照JSON格式输入的,所以直接使用fromJSON函数即可。
在默认的参数设置下,可以**一个包含4个值的R对象—字符串向量。运行fromJSON前后的这两个字符串向量,虽然名字一样,但内容完全不同,感兴趣的读者可以单独运行example来对比其区别所在。formJSON示例代码如下:
> example <- '["a", "b", 0, "c"]' > fromJSON(example) ## [1] "a" "b" "0" "c"
当参数simplifyVector被指定为假时,返回结果为一个包含4个元素的列表。4个元素即代表共有4个值,每一个值都以列表的形式返回。
当JSON格式的原始数据文件有多重嵌套时,可以通过设置参数来查看数据结构和正确读取数据。不过,一般情况下还是建议读者使用非嵌套数据来练习和使用R语言与JSON格式数据进行交互,待有一定了解后再提高难度。返回结果如下:
> fromJSON(example,simplifyVector = F) ## [[1]]## [1] "a"## ## [[2]]## [1] "b"## ## [[3]]## [1] 0## ## [[4]]## [1] "c"05 foreign package统计软件数据
在世界范围内,开源的数据**工具正在逐步取代**数据**软件,例如SAS、SPSS。在这一过程中,foreign包可以让我们无缝连接以****软件格式保存的数据。该包也是集读取和写入于一体。
因为开源统计**软件在世界范围内不可逆转的上升势头,****软件的使用**越来越低,其数据格式也渐渐被边缘化,本节只列出读取相应拓展名所需的函数以备读者不时之需,而不会做进一步的代码演示。
数据导入程序包foreign中数据读取函数及对应读取文件一览:
.xpt:lookup.xportARFF files:read.arff.dbf:read.dbfStata Binary Files:read.dta.rec:read.epiinfo.mtp:read.mtp.sav:read.spss.syd:read.systat
关于作者:刘健,资深R语言技术专家,数据科学工程师。在新西兰皇家植物与食品研究院工作,参与一项国际和两项国家的级别研究项目,使用R语言**完成气象数据自动提取和模型文件自动化工具。独立**完成R语言程序包一个。
邬书豪,资深R语言用户和数据**工程师,是数据科学领域10万粉丝的知名人工智能爱好者社区的负责人,文章阅读量破百万。喜欢用SQL、R和Python解决工作中的数据科学问题,致力于成为一名有深度行业实践**积累的数据科学家。
本文摘编自《R数据科学实战:工具详解与案例**》,经出版方授权发布。
延伸阅读《R数据科学实战:工具详解与案例**》
推荐语:这是一部能指导零基础的读者快速**R语言并利用R语言进入数据科学领域的著作。两位作者在R语言和数据科学领域有丰富的实践**,首先是非常有针对性地讲解了利用R语言进行数据处理需要**和使用的6大类17种工具,然后是结合这些工具的使用给出了5个典型的综合性案例,帮助读者迅速将理论与实践融会贯通。