一文读懂分布式数据库Hbase

2019-05-26  阅读 151 次

(1、用户读写数据过程用户写入数据时,被分配到相应Region服务器去执行用户数据首先被写入到MemStore和Hlog中只有当操作写入Hlog之后,commit()调用才会将其返回给客户端当用户读取数据时,Region服务器会首先访问MemStore缓存,如果找不到,再去磁盘上面的StoreFile中寻找(2、缓存的刷新系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记、每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件每个Region服务器都有一个自己的HLog文件,每次启动都检查该文件,确认最近一次执行缓存刷新操作之后是否发生新的写入操作;如果发现更新,则先写入MemStore,再刷写到StoreFile,最后删除旧的Hlog文件,开始为用户提供服务(3、StroreFile的合并每次刷写都生成一个新的StoreFile,数量太多,影响查找速度调用()把多个合并成一个合并操作比较耗费资源,只有数量达到一个阈值才启动合并3、Store工作原理Store是Region服务器的核心多个StoreFile合并成一个触发分裂操作,1个父Region被分裂成两个子Region单个StoreFile过大时,又4、HLog工作原理分布式环境必须要考虑系统出错。

HBase采用HLog保证系统恢复HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(WriteAheadLog)用户更新数据必须首先写入日志后,才能写入MemStore缓存,并且,直到MemStore缓存内容对应的日志已经写入磁盘,该缓存内容才能被刷写到磁盘Zookeeper会实时监测每个Region服务器的状态,当某个Region服务器发生故障时,Zookeeper会通知MasterMaster首先会处理该故障Region服务器上面遗留的HLog文件,这个遗留的HLog文件中包含了来自多个Region对象的日志记录系统会根据每条日志记录所属的Region对象对HLog数据进行拆分,分别放到相应Region对象的目录下,然后,再将失效的Region重新分配到可用的Region服务器中,并把与该Region对象相关的HLog日志记录也发送给相应的Region服务器Region服务器领取到分配给自己的Region对象以及与之相关的HLog日志记录以后,会重新做一遍日志记录中的各种操作,把日志记录中的数据写入到MemStore缓存中,然后,刷新到磁盘的StoreFile文件中,完成数据恢复共用日志优点:提高对表的写操作性能;缺点:恢复时需要分拆日志五、HBase性能1、行键(RowKey)行键是按照字典序存储,因此,设计行键时,要充分利用这个排序特点,将经常一起读取的数据存储到一块,将最近可能会被访问的数据放在一块。 举个例子:如果最近写入HBase表中的数据是最可能被访问的,可以考虑将时间戳作为行键的一部分,由于是字典序排序,所以可以使用_VALUE-timestamp作为行键,这样能保证新写入的数据在读取时可以被快速命中。 InMemory:创建表的时候,可以通过(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中。 MaxVersion:创建表的时候,可以通过(intmaxVersions)设置表中数据的最大版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)。

TimeToLive创建表的时候,可以通过(inttimeToLive)设置表中数据的存储生命期,过期数据将自动被删除,例如如果只需要存储最近两天的数据,那么可以设置setTimeToLive(2*24*60*60)。

2、HBaseMaster默认基于Web的UI服务端口为60010,HBaseregion服务器默认基于Web的UI服务端口为60030.如果master运行在名为的主机中,mater的主页地址就是http://:60010,用户可以通过Web浏览器输入这个地址查看该页面可以查看HBase集群的当前状态3、NoSQL区别于关系型数据库的一点就是NoSQL不使用SQL作为查询语言,至于为何在NoSQL数据存储HBase上提供SQL接口易使用,减少编码4、HBase只有一个针对行健的索引访问HBase表中的行,只有三种方式:通过单个行健访问通过一个行健的区间来访问全表扫描总结:1、HBase数据库是BigTable的开源实现,和BigTable一样,支持大规模海量数据,分布式并发数据处理效率极高,易于扩展且支持动态伸缩,适用于廉价设备2、HBase可以支持NativeJavaAPI、HBaseShell、ThriftGateway、Hive等多种访问接口,可以根据具体应用场合选择相应访问方式3、HBase实际上就是一个稀疏、多维、持久化存储的映射表,它采用行键、列键和时间戳进行索引,每个值都是未经解释的字符串。

4、HBase采用分区存储,一个大的表会被分拆许多个Region,这些Region会被分发到不同的服务器上实现分布式存储5、HBase的系统架构包括客户端、Zookeeper服务器、Master主服务器、Region服务器。

客户端包含访问HBase的接口;Zookeeper服务器负责提供稳定可靠的协同服务;Master主服务器主要负责表和Region的管理工作;Region服务器负责维护分配给自己的Region,并响应用户的读写请求。

一文读懂分布式数据库Hbase

精彩文章推荐:
长处劣等女仆心中的“种类感”
六年级数学天天练试题及答案2019.5.13(抽屉原理)
西北大学中国文化研究中心 传统节日作文
浙江省德清县第二中学浙教版九年级科学上册:1.4.1常见的碱教案
《神醫靈泉:貴女棄妃》
最卑贱的不过是感情,最淡漠的不过是人心
《白夜追凶》周巡是好人还是坏人 周巡扮演者是谁最后的结局如何
5·19“中国旅游日” 宿州市民乐享文旅惠民盛宴 感受到快乐英文
依旧致敬局特种构和勤奋监察股2018年勤奋例行黑忽忽及2019年勤奋猬集 情书怎么写写给男生
两个人变得话不多,冷漠了要怎么重新好起来呢
父母不同意的恋爱,我想和他在一起怎么办?
中来往·张掖 临泽县沙河镇卫生院捏词展开医疗处方点评勤奋
世界上最漂亮的生日蛋糕 我没有感受到英文
《传承中部队化共恶作剧精神旧年》给我的韶光周记作文
口腔颌面组织移植术分类号 感情说说图片