Spring核心容器简介-BeanFactory,ApplicationContext 发表于 2021-08-17 分类于 Spring 容器是Spring的最核心之一,本文将对BeanFactory,ApplicationContext这两个类入手对容器有个基本认识。 阅读全文 »
Hive基础 发表于 2020-11-23 分类于 Hive Hive是为了解决海量结构化日志的数据统计框架,他是一个基于Hadoop的数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL的查询功能。本质就是将HQL转化成MR程序。 阅读全文 »
MR学习总结 发表于 2020-08-07 分类于 MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 阅读全文 »
Flume自定义Sink 发表于 2020-06-02 分类于 Flume Sink 是完全事务性的。在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一 个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent,Sink 就利用 Channel 提 交事务。事务一旦被提交,该 Channel 从自己的内部缓冲区删除事件。Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、 自定义。官方提供的 Sink 类型已经很多,但是有时候并不能满足实际开发当中的需求,此 时我们就需要根据实际需求自定义某些 Sink。 阅读全文 »