返回顶部
首页 > 资讯 > 精选 >如何让Java实现大文本并行计算
  • 903
分享到

如何让Java实现大文本并行计算

2023-06-03 15:06:32 903人浏览 泡泡鱼
摘要

本篇文章给大家分享的是有关如何让Java实现大文本并行计算,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。简单提高文本读取效率,使用BufferedReader是个不错的选择。速

本篇文章给大家分享的是有关如何让Java实现大文本并行计算,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

简单提高文本读取效率,使用BufferedReader是个不错的选择。速度最快的方法是MappedByteBuffer,但是,相比BufferedReader而言,效果不是非常明显。也就是说,后者虽然快,但也快的有限(不要抱有性能提升几倍的幻想)。

对于大文本的读取,性能瓶颈主要在io,read占时间多是正常的,硬盘本身就不快,读入内存后还要转成对象,都比较耗时间。

想要提速应当用并行的办法,用多线程同时读取和处理数据,但Java写多线程程序很麻烦,并行分段读同一个文件时还要考虑调整边界,也比较麻烦。

比如要这么个场景:分组汇总每个客户的销售额,部分源数据如下:

O_ORDERKEY       O_CUSTKEY        O_ORDERDATE        O_TOTALPRICE

10262   RATTC   1996-07-22       14487.0

10263   ERNSH   1996-07-23       43818.0

10264   FOLKO   2007-07-24       1101.0

10265   BLONP   1996-07-25       5528.0

10266   WARTH   1996-07-26       7719.0

10267   FRANK   1996-07-29       20858.0

10268   GROSR   1996-07-30       19887.0

10269   WHITC   1996-07-31       456.0

10270   WARTH   1996-08-01       13654.0

...

期望的结果:

如何让Java实现大文本并行计算

Java部分多线程代码大概要写成这样:

...

final int DOWN_THREAD_NUM = 8;

CountDownLatch doneSignal = new CountDownLatch(DOWN_THREAD_NUM); 

RandoMaccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM]; 

try{ 

    long length = new File(OUT_FILE_NAME).length(); 

    long numPerThred = length / DOWN_THREAD_NUM;   

    long left = length % DOWN_THREAD_NUM; 

    for (int i = 0; i < DOWN_THREAD_NUM; i++) {   

        outArr[i] = new RandomAccessFile(OUT_FILE_NAME, "rw");   

        ...                                

        if (i == DOWN_THREAD_NUM - 1) {   

            new ReadThread(i * numPerThred, (i + 1) * numPerThred + left, outArr[i],keyWords,doneSignal).start();

            ... 

        } else {

            new ReadThread(i * numPerThred, (i + 1) * numPerThred,outArr[i],keywords,doneSignal).start();

            ...

        }

    }

}

...

如果有集算器就简单多了,它对Java的多线程进行了封装,提供了对大文件分段并行的功能,写起来容易多了,对人员要求也低。比如上面问题,2行就搞定了(集算器内置了并行选项@m,不设置并行数,默认按核数做为并行数):


A

1

=file("/workspace/orders.txt").cursor@mt()

2

=A1.groups(O_CUSTKEY;sum(O_TOTALPRICE):AMOUNT)

其实还有很多情况用Java并行处理大文本很麻烦,甚至大文本分组、排序、关联计算等需求,但用集算器SPL却很简单。

以上就是如何让Java实现大文本并行计算,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网精选频道。

--结束END--

本文标题: 如何让Java实现大文本并行计算

本文链接: https://lsjlt.com/news/234690.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何让Java实现大文本并行计算
    本篇文章给大家分享的是有关如何让Java实现大文本并行计算,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。简单提高文本读取效率,使用BufferedReader是个不错的选择。速...
    99+
    2023-06-03
  • 大数据文本并行计算实现方式是什么
    本篇文章为大家展示了大数据文本并行计算实现方式是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。对于大数据文件的处理,可以充分利用现代计算机的多核CPU,实施多线程并行计算,从而达到提速的目的。然...
    99+
    2023-06-03
  • Python编程算法:如何实现并行计算?
    在计算机科学领域中,计算机的速度一直是一个瓶颈。为了克服这个瓶颈,现代计算机通常采用并行计算方法。并行计算是指通过同时执行多个计算任务来提高计算机的效率。 Python作为一种高级编程语言,也可以实现并行计算。在本篇文章中,我们将探讨如何...
    99+
    2023-06-27
    编程算法 开发技术 git
  • JAVA 如何实现大文本去除重复行
    这期内容当中小编将会给大家带来有关JAVA 如何实现大文本去除重复行,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。去重复行,用SQL写很简单,就一句SELECT DISTINCT … FROM。但...
    99+
    2023-06-03
  • Java中如何使用NumPy实现并发计算?
    Java是一门功能强大的编程语言,能够用于开发各种类型的应用程序。而NumPy则是一种用于数学计算的Python库,它可以帮助开发者进行高效的数组计算。本文将介绍如何在Java中使用NumPy实现并发计算。 一、Java中使用NumPy的...
    99+
    2023-07-23
    numy 并发 npm
  • Python并行计算简单实现
    multiprocessing包是Python中的多进程管理包. Pool(num)类提供一个进程池,然后在多个核中执行这些进程, 其中默认参数num是当前机器CPU的核数. Pool.map(func, iterable...
    99+
    2023-01-31
    简单 Python
  • Java语言如何实现实时计算与NumPy并发?
    随着大数据技术的不断发展,实时计算和并发处理成为了数据处理领域的两大重要方向。Java作为一门广泛应用于企业级应用的编程语言,其实时计算和并发处理的能力备受关注。而NumPy则是Python中广泛应用于数值计算和科学计算的库,其强大的并发...
    99+
    2023-09-23
    实时 numy 并发
  • JavaScript 中如何实现大文件并行下载
    目录一、HTTP 范围请求1.1 Range 语法二、如何实现大文件下载2.1 定义辅助函数2.2 大文件下载使用示例三、总结相信有些小伙伴已经了解大文件上传的解决方案,在上传大文件...
    99+
    2024-04-02
  • TensorFlow中的多GPU并行计算是如何实现的
    在TensorFlow中,可以使用tf.distribute.Strategy API来实现多GPU并行计算。tf.distribu...
    99+
    2024-03-01
    TensorFlow
  • DotNet中怎么实现并行计算
    这期内容当中小编将会给大家带来有关DotNet中怎么实现并行计算,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。误区三 . 并行计算是运行时的事 的确,DotNet会在运行时决定是否使用并行库处理代码,但是...
    99+
    2023-06-17
  • Java如何实现判断并输出文件大小
    目录java判断并输出文件大小java计算文件大小三种方法及优缺点比较优缺点比较总结java判断并输出文件大小 有些地方需要判断用户上传的文件大小或者下载文件之类的地方,这个功能还是...
    99+
    2023-05-15
    Java判断文件大小 Java输出文件大小 Java输出文件
  • 如何在Python中进行并行计算和分布式计算
    如何在Python中进行并行计算和分布式计算随着计算机技术的不断发展和硬件性能的提升,利用多核处理器进行并行计算和分布式计算已成为提高程序性能的重要手段之一。而Python作为一门简洁易用且功能强大的编程语言,也提供了丰富的库和工具来支持并...
    99+
    2023-10-22
    并行计算 (Parallel computing) Python (Python) 分布式计算 (Distributed
  • 如何使用Java和NumPy实现高效的并发计算?
    随着互联网的不断发展,数据量的增长速度越来越快,如何高效地处理这些数据成为了一个重要的问题。并发计算是一种处理大量数据的有效方式,而Java和NumPy则是两个在并发计算领域中被广泛使用的工具。本文将介绍如何使用Java和NumPy实现高...
    99+
    2023-07-23
    numy 并发 npm
  • 如何进行C++代码的并行计算?
    随着计算机硬件性能的不断提升,针对多核处理器的并行计算成为了编程领域中的一个重要话题。C++作为一种高效的编程语言,自然也有各种方法来实现并行计算。本文将介绍几种常用的C++并行计算的方法,并分别展示它们的代码实现和使用场景。OpenMPO...
    99+
    2023-11-03
    代码 C++ 并行计算
  • 如何在python中使用multiprocessing实现多进程并行计算
    如何在python中使用multiprocessing实现多进程并行计算?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。python是什么意思Python是一种跨...
    99+
    2023-06-06
  • Go 语言中如何利用多核 CPU 实现并行计算
    本篇文章给大家分享的是有关Go 语言中如何利用多核 CPU 实现并行计算,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。开始之前,我们先澄清两个概念,「多核」指的是有效利用 CP...
    99+
    2023-06-20
  • java如何实现科学计算器
    这篇文章主要介绍了java如何实现科学计算器的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇java如何实现科学计算器文章都会有所收获,下面我们一起来看看吧。实现思路通过点击按钮可以得到一个算术表达式,并且它是一...
    99+
    2023-07-02
  • Zabbix数据结构及并行计算实现
    本文原创作者鲍光亚,京东商城基础平台部软件开发工程师,经作者同意发表于本人博客,如需转载需经本人同意。一、 前言我部门对数据库的监控使用的是开源的Zabbix系统,目前监控了上万台主机。本文旨在通过分析Za...
    99+
    2024-04-02
  • Java利用Map实现计算文本中字符个数
    目录一、题目要求二、分析三、部分代码展示四、全部代码五、结果截图(部分)六、a.txt文本一、题目要求 有一个英文的文本文档a.txt , 需要读取该文本文档并计算文档中英文字符出现...
    99+
    2024-04-02
  • Go语言如何支持云上的大规模并行计算?
    随着云计算技术的不断发展,越来越多的企业开始将其应用于自身的业务中,以提升处理能力和效率。而大规模并行计算则是云计算领域中一个非常重要的技术,能够让企业在处理海量数据时更加高效。而Go语言作为一种支持高并发的编程语言,自然也是云计算领域中的...
    99+
    2023-05-17
    云计算 Go语言 并行计算
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作