课程概要
目前,我们所面对的一个严重挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称“大数据”(Big Data)。这样的数据借助互联网的快速传递无所不在:从各种科学研究基地,到重多政府机构,还有各大商业企业公司。举世界上最大社会网Facebook(脸谱)为例,现在每天有超过70 Terabytes (x1012 Bytes) 经过压缩后的新数据需要存储,管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模上、性能上、和费用上无法对付日益增大的海量数据了。
大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次以数据为基础的探索,发现,和创新的机遇。
大数据处理有以下几个特点:(1)处理的平台一定是大规模和可扩展的分布式系统;(2)处理数据的软件构架是MapReduce 为基础的。(3)需要各种有效的存储技术和调度算法的支持。(4)在高效和优化的条件下,先进的存储硬件,比如,固态闪存器件(SSD),可以起到很好的作用。
课程大纲
这门课将全面介绍几个在海量数据分布式系统中的存储、管理和分析层面上有代表性的和先进的算法和技术。课程安排如下:
(一) MapReduce以及数据处理
(1) 基本结构和Hadoop的开源实现
(2) Hive: 在Hadoop上的数据仓库
(3) YSmart: 优化Hadoop的数据处理
(二) 海量数据在分布式系统上的存储结构
(1) RCFile: 设计与实现
(2) 存储结构中优化问题
(3) RCFile的应用范围
(三) 内存和磁盘管理中的核心技术: 替换算法
(1) LRU算法优点以及难以解决的问题
(2) LIRS算法是如何解决LRU问题的
(3) Clock-pro: LIRS是如何实现在操作系统内核的
(4) BP-wrapper:消除替换算法在系统实现中的同步竟争
(四) 提高操作系统对磁盘的管理功能和效率
(1) 操作系统对磁盘管理的局限性
(2) 扩大操作系统的视野去获得关键的磁盘数据存储地址信息
(3) DULO-Caching和DULO-Prefetchin:感知磁盘数据分布的缓存(Caching)和预取(Prefetching)方法以及系统实现
(五) 固态闪存系统(Solid State Device Flash Memory)
(1) SSD Flash Memory的结构和性能
(2) SSD的并行性和它在整个存储系统中的作用
(3) Hystor: 一个通用的混合型SSD的存储系统
(4) hStorage-DB: 一个为数据库服务的混合型SSD的存储系统
(六) 在互联网上的数据管理和有效传输
(1)Stretched Exponential Distribution: 一个大数据访问行为的分布模型。
(七)计算机学者发表论文之目的与追求
注:课程在此基础上可能会有部分调整和更新