我的第一个博客

  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

7.编译Spark源码

发表于 2018-12-13 | 分类于 Big Data learning
如果我们要使用spark,最好是根据自己的环境把源码编译一次。而且我们已经有了编译hadoop的经验,这个做起来比编译hadoop简单哈。 环境准备硬件环境:2核2线程 8G内存 40G硬盘 Linux环境:CentOS 6.5 jdk版本:jdk1.8 scala版本:2.12.8 maven版本 ...
阅读全文 »

6.spark基本概念

发表于 2018-12-10 | 分类于 Big Data learning
what’s Spark​ Apache Spark™ is a unified analytics engine for large-scale data processing. Spark是用于大规模数据处理的统一分析引擎。 Speed Run workloads 100x faster. ...
阅读全文 »

scala生成本地文件

发表于 2018-12-10 | 分类于 作业
题目用Scala文件内容的生成本地的一个文件 格式: url time traffic 例如: http://www.baidu.com [2018-12-08 22:00:00] 30 生成一些错乱数据比如,时间格式不对,流量不为数字 环境IDEA 版本: Intel ...
阅读全文 »

scala操作jdbc

发表于 2018-12-10 | 分类于 作业
题目 使用scala操作jdbc (使用 scalikejdbc 来操作) 环境IDEA 版本: IntelliJ IDEA 2018.2.5 x64 实现添加依赖修改pom文件 123456789101112131415161718192021222324252627282930313233343 ...
阅读全文 »

scala实现wordCount

发表于 2018-12-10 | 分类于 作业
题目scala实现wordcount 环境IDEA 版本: IntelliJ IDEA 2018.2.5 x64 实现word.txt123hadoop hadoop hadoop word world worldpig hive word hive pig WordCountApp.scala12 ...
阅读全文 »

安装LZO

发表于 2018-12-09 | 分类于 作业
环境Linux版本: CentOS 6.5 jdk版本: JDK1.8 hadoop版本: 2.6.0-cdh5.7.0 参考: github上的LZO项目 安装类库安装一些依赖的类库 1# yum -y install lzo-devel zlib-devel gcc autoconf auto ...
阅读全文 »

测试LZO的index功能

发表于 2018-12-09 | 分类于 作业
题目请测试LZO的index功能​ a) 练习lzo的index如何使用(hadoop-lzo.jar)​ b) block是128M,你的lzo数据>128,请使用一个shell造出来这个数据​ c) 当做wc的input,观察是否是2个map task 环境Linux版本 ...
阅读全文 »

sqoop从mysql导入到HDFS

发表于 2018-12-07 | 更新于 2018-12-09 | 分类于 作业
题目sqoop从mysql导入数据到HDFS,请使用snappy压缩​ a) 练习sqoop的用法​ b) 安装snappy并整合使用 环境Linux版本: CentOS 6.5 jdk版本: JDK1.8 hadoop版本: 2.6.0-cdh5.7.0 sqoop版本:1.4.6- ...
阅读全文 »

5.编译hadoop源码

发表于 2018-12-04 | 更新于 2018-12-05 | 分类于 Big Data learning
上次我们说到了文件压缩和文件格式,为了本地native包不为空,我们决定自己编译一下Hadoop源码。 环境准备Linux环境:CentOS 6.5 jdk版本:jdk1.7(注:pom文件里面很多注明了1.7,所以最好用1.7编译) maven版本:apache-maven-3.6.0 Had ...
阅读全文 »

4.初识Hadoop文件格式

发表于 2018-12-03 | 更新于 2018-12-04 | 分类于 Big Data learning
一般来说,hadoop的存储格式分为行式存储和列式存储 行式存储: SequenceFile,MapFile,Avro Datafile 列式存储: Rcfile,Orcfile,Parquet SequenceFile SequenceFile是Hadoop API 提供的一种二进制文 ...
阅读全文 »
12

fenian7788

20 日志
6 分类
19 标签
© 2018 fenian7788
由 Hexo 强力驱动 v3.8.0
|
主题 – NexT.Gemini v6.5.0