hbase按rowkey查询，hbase如何根据rowkey查询数据

时间：2024-01-22 本站点击：16

深入理解HBASE(3.4)RegionServer-Memstore

理想情况下，在不超过hbase.regionserver.global.memstore.upperLimit的情况下，Memstore应该尽可能多的使用内存(配置给Memstore部分的，而不是真个Heap的)。

MemStore 是 HBase 非常重要的组成部分，MemStore 作为 HBase 的写缓存，保存着数据的最近一次更新，同时是HBase能够实现高性能随机读写的重要组成。

regionServer 其实是hbase的服务，部署在一台物理服务器上，region有一点像关系型数据的分区，数据存放在region中，当然region下面还有很多结构，确切来说数据存放在memstore和hfile中。

Region是HBase数据存储和管理的基本单位。一个表中可以包含一个或多个Region。每个Region只能被一个RS（RegionServer）提供服务，RS可以同时服务多个Region，来自不同RS上的Region组合成表格的整体逻辑视图。

1、必须在设计上保证RowKey的唯一性。由于在HBase中数据存储是Key-Value形式，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖。设计的RowKey应均匀的分布在各个HBase节点上，避免数据热点现象。

2、主键设计成：现有的主键+频度+列，即h+1+hi，但是最好将每个都格式化成定长的字符串，当你需要取前5个记录时使用过滤器取出前5条记录即可。

3、设计的RowKey应均匀的分布在各个HBase节点上，避免数据热点现象。

4、行键(RowKey)的设计首先应该避免使用时序或单调(递减/递增)行键。

5、设计RowKey时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)Column Family 列族：HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。

6、综上所述，我们的rowkey设计为ip+timestamp+port+prot 设计搞定之后，我们再考虑查询的问题。我们知道对于hbase的查询，最快的方式就是get，这样的话，可以迅速定位到一条数据。

1、不要用filter很慢的，直接scan，设一下start和end就行了。它支持通配的。

2、自己的想法是先通过HTable.getstartkey（）得到每个region的起始rowkey，然后从前往后逐条搜索，符合条件的就加入到结果中去。但是实现时发现HTable.getstartkey（）没有正确返回起始rowkey。使用的是伪分布模式下的HBase。

3、方法如下：rowkey是行的主键，Hbase支持3种检索方式，通过单个Rowkey访问，按照某个Rowkey键值进行get操作，获取唯一一条记录。通过Rowkey的range进行scan，通过设置startRowKey和endRowKey，在这个范围内进行扫描。

4、hbaseshell转换时间类型的方法是：根据namespace、表名和rowkey在meta表中找到对应的region信息。找到这个region对应的regionserver，查找对应的region。先从MemStore找数据，如果没有，再到BlockCache里面读。

5、首先过滤器在RegionServer里发挥作用，即在RS层过滤掉客户端不需要的数据，以减少网络传输的数据量，以此减少查询时间，所以不会减少查询的数据量。

hbase按rowkey查询的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hbase如何根据rowkey查询数据、hbase按rowkey查询的信息别忘了在本站进行查找喔。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：/nosql/131065.html