返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >R语言中文本文件分割 符号 sep的用法
  • 289
分享到

R语言中文本文件分割 符号 sep的用法

2024-04-02 19:04:59 289人浏览 泡泡鱼
摘要

一般情况下: csv 文件 sep = “,” # 以逗号分割 txt 文件 sep = “\t” #以制表符分割 其他文件 sep = " " #以空格分割 具体情况,具体调整 s

一般情况下:

csv 文件 sep = “,” # 以逗号分割

txt 文件 sep = “\t” #以制表符分割

其他文件 sep = " " #以空格分割

具体情况,具体调整

sep= 文件中的字段分离符,用于文件数据文本的读取和保存过程中指定分割符号。

补充:用R语言把超大文本文件拆分成几个小文本文件

近一段时间一直在研究一些医院的数据。

前两天遇到一个尴尬:想打开一个仅有3G左右的文本文件(有时候必须要打开,直接传到数据库满足不了需求),破电脑(4G内存的电脑)就是打不开(用的Notepad++)。

就是这造型:

上网搜了一些方法,下了一些比较不常用的文本处理工具和其它工具,也不理想。

得知好多人在许多场景都需要打开或者拆分8G甚至10G以上的文本文件,于是想着自己研究一下。

下面就是我用R来拆分大文本的过程

虽然方法比较笨,但是简单轻巧、思路清晰。

1.首先把你想要拆分的大文本文件放到R的当前工作目录下

我的文件名在这里叫details.txt。

2.用函数split_file()来拆分大文本文件

split_file()函数是自定义的一个函数,用来拆分超大文本文件。

它总共有两个参数filename和eachfile_lines_num,即split_file(filename,eachfile_lines_num)。

filename是指需要拆分的超大文本的名字,eachfile_lines_num是指拆分完的每一个文件中有多少行数据。

split_file()会返回一个数值,代表了总共拆分成的小文本的数量。

split_file()拆分出来的文件会放置在R当前的工作目录下。

使用如:

split_file("details.txt",1000000),它把名为details.txt的超大文本文件拆分为每个文件只有1000000行的一个个的小文本文件。

split_file()的细节:


file_split <- function(filename,eachfile_lines_num){                               #建立函数
	c <- file(filename,"r")                                                    #建立链接
	varnames <- paste("splitfile", 1:1000, sep = "_")                          #建立尽可能多但不要太多的动态变量名
	i <- 1                                                                     #初始值
	while(TRUE){
		assign(varnames[i],value = readLines(c,n = eachfile_lines_num))    #分别把从filename中读出来的数据存放在变量中 
		write.table(get(varnames[i]),paste(varnames[i],".txt",sep = ""))   #分别把存放在变量中的数据写出到文件中
		if (length(get(varnames[i])) < eachfile_lines_num) break           
		else i <- i + 1                                                    #判断循环停止条件
}
	return(i)                                                                  #返回文件数量
}

我执行完file_split("details.txt",500000)之后得到了30多个文件:

3.对拆分的文件进行处理

由于过程中用到了readLines(),因此拆出来的文件每一行是一个字符串,有引号。

这好像不符合要求,只需用windows记事本或notepad++或其他文本处理应用处理一下就行。

在notepad++中执行“搜索 -> 替换”把双引号替换成\0就行了。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。如有错误或未考虑完全的地方,望不吝赐教。

--结束END--

本文标题: R语言中文本文件分割 符号 sep的用法

本文链接: https://lsjlt.com/news/124292.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • R语言中文本文件分割 符号 sep的用法
    一般情况下: csv 文件 sep = “,” # 以逗号分割 txt 文件 sep = “\t” #以制表符分割 其他文件 sep = " " #以空格分割 具体情况,具体调整 s...
    99+
    2024-04-02
  • R语言-如何读写带分隔符的文件
    有众多的格式和文本文件标准可用于存储数据。用于存储数据的通用格式为分隔符值(即CSV或制表符分割文件)、可扩展标记语言(XML)、JavaScript对象表示法(JSON) 将数据存...
    99+
    2024-04-02
  • java分割文本字符串的方法
    问题:在项目中,当保存数据超过数据库字段列长度限制时,如何解决?一种常见的解决办法是:截串存取。顾名思义,就是对大文本数据按指定长度进行截取,返回结果集依截取顺序存储在新表中。并通过在新表中创建一个type字段来标识新表中截取的内容对应旧表...
    99+
    2023-05-31
    java 分割 字符串
  • 如何在R语言中对文本文件进行读写
    如何在R语言中对文本文件进行读写?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。具体如下:read.table(file,sep,hesder)#file 文件路径#s...
    99+
    2023-06-08
  • 易语言分割文本到数组的方法是什么
    在易语言中,可以使用字符串分割函数 `函数名.Split()` 来将文本分割成数组。具体的方法是将待分割的文本作为参数传递给 `Sp...
    99+
    2023-08-17
    易语言
  • R语言处理JSON文件的方法
    JSON文件以人类可读格式将数据存储为文本。 Json代表JavaScript Object Notation。 R可以使用rjson包读取JSON文件。 安装rjson包 在R语言...
    99+
    2024-04-02
  • R语言如何使用list.files遍历文件夹中的文件
    这篇文章主要为大家展示了“R语言如何使用list.files遍历文件夹中的文件”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“R语言如何使用list.files遍...
    99+
    2024-04-02
  • R语言操作文件的方法什么
    这篇文章主要介绍“R语言操作文件的方法什么”,在日常操作中,相信很多人在R语言操作文件的方法什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”R语言操作文件的方法什么”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-25
  • 使用R语言批量修改文件名的方法
    在R语言默认目录下有一文件夹test,其下有三个文件,分别是test1.txt, text2.txt, text3.txt, 现在要对这三个文件进行批量的修改。主要使用到了...
    99+
    2024-04-02
  • R语言绘图样式设置操作(符号,线条,颜色,文本属性)
    设置图像样式有两种方法,一种是全局修改,一种只针对一幅图片有效。 全局修改 a<-c(1:10) #全局修改 old_par<-par(no.readonly=T...
    99+
    2024-04-02
  • R语言绘图样式设置如何操作符号,线条,颜色,文本属性
    这篇文章主要介绍“R语言绘图样式设置如何操作符号,线条,颜色,文本属性”,在日常操作中,相信很多人在R语言绘图样式设置如何操作符号,线条,颜色,文本属性问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”R语言绘图...
    99+
    2023-06-14
  • Go语言中如何处理并发文件的文件系统文件切割和文件合并问题
    在Go语言中,可以使用goroutine和channel来处理并发文件的文件系统文件切割和文件合并问题。下面是一个简单的示例代码:`...
    99+
    2023-10-09
    Go语言
  • Go语言中如何处理并发文件的文件系统文件切割和文件合并问题?
    Go语言中如何处理并发文件的文件系统文件切割和文件合并问题?在处理大文件时,我们常常需要将文件切割成小块进行处理,并在处理完成后将小块文件合并成一个完整的文件。在并发处理大文件时,我们希望能够充分利用多个处理器核心来提高处理速度。Go语言提...
    99+
    2023-10-22
    并发处理 文件系统 文件切割
  • 使用R语言实现自动文摘的方法
    目录准备工作文本预处理基于词频-逆文档频率(TF-IDF)的自动文摘计算TF-IDF值提取关键词生成摘要基于潜在语义分析(LSA)的自动文摘计算主题提取主题词生成摘要结论自动文摘(A...
    99+
    2023-05-20
    R语言自动文摘 R语言文摘
  • R语言统计结果输出至本地文件的几种方法示例
    1.sink() 在代码开始前加一行:sink(“output.txt”),就会自动把结果全部输出到工作文件夹下的output.txt文本文档。这时在R控制台的输出窗口中是看不到输出...
    99+
    2024-04-02
  • R语言中RStudio中文读取乱码的解决方法
    这期内容当中小编将会给大家带来有关R语言中RStudio中文读取乱码的解决方法,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。RStudio中使用rjson包读取处理json数据时,遇到中文会显示为 “&l...
    99+
    2023-06-02
  • Python处理文本文件中控制字符的方法
    控制字符 控制字符(Control Character),或者说非打印字符,出现于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)...
    99+
    2022-06-04
    文本文件 字符 方法
  • R语言批量读取某路径下文件内容的方法
    R刚入门的时候,能够正确读取单个文件就觉得小有成就,随着时间的积累,单一文件地读取已经不能满足需求了,此时,批量地做就是解放双手地过程。 使用for循环把下载地TCGA数据读入R语言...
    99+
    2024-04-02
  • c语言如何读取文件中的字符串
    在C语言中,可以使用标准库函数`fscanf`或`fgets`来读取文件中的字符串。1. 使用`fscanf`函数:```c#inc...
    99+
    2023-08-24
    c语言
  • R语言中的五种常用统计分析方法
    1、分组分析aggregation 根据分组字段,将分析对象划分为不同的部分,以进行对比分析各组之间差异性的一种分析方法。 常用统计指标: 计数 length 求和 sum 平均值 ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作