一般选择数据库来存放数据,并借助数据表的索引来加快检索速度。利用索引查找数据,即使数据总量达到有10亿,对于单条记录的查找效率大约在数十毫秒(复杂度为LogN)。但是,如果需要查询的键值很多,比如多达几千甚至几万的时候,如果每次都独立查找,
一般选择数据库来存放数据,并借助数据表的索引来加快检索速度。利用索引查找数据,即使数据总量达到有10亿,对于单条记录的查找效率大约在数十毫秒(复杂度为LogN)。但是,如果需要查询的键值很多,比如多达几千甚至几万的时候,如果每次都独立查找,那读取和比较也会累积到几万甚至几十万次,时间延迟由此也会涨到几十分钟甚至小时级别,这时候再简单地使用数据库索引对于用户体验必然是难以容忍的了。
比如下面这样的查询:
结构如下:
字段 | 类型 | 备注 |
id | long | 1000000000001开始自增 |
data | string | 随机字符串(长度为 180 字节) |
对这样结构的6亿条数据,从中取1万个随机id对应的记录,用oracle大约就需要120 秒了。
使用的sql大概这样:select * from testdata where id in (…)
另外由于in中的个数最大1000个,还需要多次查询后的结果再合并,处理起来也比较麻烦。
同样的数据,用集算器来处理,代码简单且查找高效,看下面这个例子:
A | B | |
1 | =file("testdata.ctx").create() | //打开组表文件testdata.ctx |
2 | =A1.index@3(id_idx) | //加载三级索引 |
3 | =keys | //待查找的随机键值序列 |
4 | =A1.icursor(;A3.contain(id),id_idx) | //利用组表索引id_idx查找 |
这里使用了集算器组表功能,基于高性能索引和批量键值查找,可以有效地应对这种场景。该场景下,集算器查询仅用了20秒,相比Oracle的120秒提升了6倍。感兴趣可以参考:性能优化教案—查找
集算器还很容易嵌入到Java应用程序中,Java如何调用SPL脚本有使用和获得它的方法。
关于集算器安装使用、获得免费授权和相关技术资料,可以参见如何使用集算器。
--结束END--
本文标题: 大数据批量键值查询怎样才会更快
本文链接: https://lsjlt.com/news/6705.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-10-23
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
2024-10-22
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0