智能与分布计算实验室
 

大数据处理与分析


大数据(Bigdata)指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次以数据为基础的探索,发现,和创新的机遇。


主要研究海量数据在分布式系统中的存储、管理和分析层面上的算法和技术,包括:


(1)海量数据在分布式系统上的存储结构优化。分析和探索多层次的存储架构,引入先进的存储硬件,比如,固态闪存器件(SSD),考虑SSD的特点和并行性,让其在整个存储系统中发挥重要作用。结合传统搜索引擎,研究大量节点的索引结构和查询优化算法。


(2)海量数据在Hadoop(Yarn)平台上的管理和分析。Hadoop是大数据的基础平台,涉及MapReduce、数据存储、数据处理和调度算法等。作为Hadoop的第二版本,YARN是对原Hadoop框架进行重构的统一资源管理平台,把所有的数据储存在一个地方,用不同的方式进行交互,同时提供性能预测,也能够进行类似Windows或其他操作系统可以对系统内不同资源进行分配和管理的集中管理。


(3)面向信息检索的并行计算优化。通过基于内存计算的开源集群计算系统Spark,针对具体应用进行更快速的数据分析。Spark 提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,使Spark 在某些工作负载表现更优秀。对比MapReduce只能处理离线数据,Spark能支持实时的流计算,可以与Hadoop和已存Hadoop数据整合。


(4)大数据挖掘。通过借助机器学习、人工智能、模式识别等技术对大量的数据进行探索、抽取、集成和分析,从各种结构的(数据库)或非结构(Web)的海量数据中提取有用信息和发现知识,揭示隐藏的、未知的或验证已知的规律性,通过预测未来趋势及行为,做出前摄的、基于知识的决策。


(5)个性化推荐。借助大量的互联网日志,挖掘出每一个用户的兴趣和个性化需求,并将用户感兴趣的信息、产品等主动推送给用户。和搜索引擎相比,推荐系统不是依赖用户主动输入的查询词来了解用户的信息需求,而是通过挖掘网站中海量的用户行为日志,研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。


大数据处理与分析研究组