- 博客(641)
- 资源 (26)
- 问答 (1)
- 收藏
- 关注
原创 一文彻底弄懂Linux-Shell编程
一、Shell 编程之条件结构 1、Shell 条件测试语法test 测试表达式利用test命令进行条件测试表达式, test命令与测试表达式之间至少有一个空格[ 测试表达式 ]通过[ ]中括号进行条件测试表达式, []中括号边界与测试表达式之间至少有一个空格[[ 测试表达式 ]]通过[[ ]]双中括号进行条件测试表达式, [[ ]]双中括号与测试表达式之间至少有一个空格((测试表达式))通过(( ))双小括号进行条件测试表达式, ( ))双小括号两端不需要空格, 常用于整数对比 1、符号
2022-09-04 21:57:10
426
原创 实时即未来,大数据项目车联网之项目基石与前瞻【一】
车联网的概念介绍车联网( Internet of Vehicles )指按照一定的通信协议和数据交互标准,在“人-车-路-云“之间进行信息交换的网络。即首先实现汽车智能网联化,再利用各种传感技术,感知车辆状态信息,并借助无线通信网络与大数据分析技术实现交通的智能化管理。
2022-08-19 16:45:30
1005
4
原创 如何使用云容器搭建基于CentOS7的Hadoop2.x伪分布式环境(CSDN开发者云平台使用初体验)
前不久CSDN联合国内顶级云厂商,共同为开发者提供稳定便宜的云服务,送了学长两张优惠券,一张云容器,一张云主机。恰好最近在学习某硅谷的SeaTunnel课程需要用到主机做实验,使用本地的还需要,有诸多不便,于是想试试服务。.........
2022-06-12 18:00:22
904
27
原创 总结的数据结构小公式
文章目录完全无向图和完全有向图公式最小生成树矩阵:完全无向图和完全有向图公式将一个具有 n 个顶点 e 条边的无向图存储在邻接矩阵中,则非零元素的个数是 2e。对于一个具有 n 个顶点 e 条边的有向图存储在邻接矩阵中,则非零元素的个数是 e。1.完全无向图:n个顶点的完全无向图的边数= n(n-1)/22.完全有向图: 完全有向图的边数=n(n-1)3. 举例1:有10个顶点的无向连通图边的数量最少是( 9 )个,最多是( 45 )个4. 举例2:有10个顶点的有向连通图
2021-12-20 13:23:14
3152
1
原创 我用免费白拿的服务器搭建了一台基于CentOS7的Hadoop3.x伪分布式环境
由于我接的私活经常需要使用到Hadoop集群,本地启动有启动速度慢、操作麻烦和占用内存等诟病,有鉴于此何不部署云集群,选择的是Hadoop3.x的伪分布式部署方法。
2021-12-03 12:27:46
3387
17
原创 Docker篇之如何部署MySQL
MySQL部署5.1.1拉取MySQL镜像docker pull mysql查看镜像5.1.2创建MySQL容器docker run -di --name demo_mysql -p 33306:3306 -e MYSQL_ROOT_PASSWORD=123456 mysql-p 代表端口映射,格式为 宿主机映射端口:容器运行端口-e 代表添加环境变量 MYSQL_ROOT_PASSWORD是root用户的登陆密码5.1.3进入MySQL容器,登陆MySQL进入mysql容器
2021-11-25 20:27:00
1177
2
原创 SpringCloud微服务之Nacos集群搭建
Nacos集群搭建1.集群结构图官方给出的Nacos集群图:其中包含3个nacos节点,然后一个负载均衡器代理3个Nacos。这里负载均衡器可以使用nginx。我们计划的集群结构:三个nacos节点的地址:节点ipportnacos1192.168.150.18845nacos2192.168.150.18846nacos3192.168.150.18847此处的IP是你自己服务的IP,不一定要按照我的来2.搭建集群搭建集群的基本步骤:
2021-11-12 10:54:38
1191
6
原创 1000个大数据/人工智能毕设选题推荐
正值毕业季我看到很多同学都在为自己的毕业设计发愁Maynor在网上搜集了1000个大数据的毕设选题,希望对大家有帮助~适合大数据毕业设计的项目,完全可以作为本科生当前较新的毕业设计题目选择方向。
2021-11-10 08:09:05
32942
5
原创 答应粉丝的Maven仓库学习笔记,今天它来了 一起来学习快速入门Maven
文章目录背景Maven第一部分1.1 什么是Maven1.2 仓库1.3 maven环境搭建1.3.1 下载1.3.2 安装1.3.3 配置:系统环境变量1.4 Maven使用1.4.1 私有仓库配置1.4.2 配置镜像(第三方仓库,私服)1.5 IDEA 配置1.5.1 IDEA 配置 maven1.5.2 新项目配置1.5.3 配置失败,重新配置1.6 IDEA 中 maven使用1.6.1 创建maven项目1.6.2 基本使用1.6.3 坐标2. Maven第二部分2.1 坐标2.1.1 什么是.
2021-10-19 16:23:36
1946
12
原创 [hadoop3.x]HDFS中的内存存储支持(七)概述
目前博客Hadoop文章大都停留在Hadoop2.x阶段,本系列将依据黑马程序员大数据Hadoop3.x全套教程,对2.x没有的新特性进行补充更新,一键三连加关注,下次不迷路!
2021-10-08 16:06:43
764
3
原创 manor的博客导航,大数据の蜕变之路
前言前段时间更新完了大数据体系的相关博文,一直没时间梳理,又转战Vue、Java、Mysql了,这次便整理一下博客,一来方便自己回顾知识 二来方便博友寻找阅读。
2021-09-03 17:18:42
2140
22
原创 ✨【Java基础】每天一道基础题+面试题——Day01✨
今天是持续学习的第 29 / 100 天。 如果你有想要交流的想法、技术,欢迎在评论区留言。【程序1】題目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?public static void main(String[] args) { //需要输入的月份: System.out.println("请输入的月份"); Scanner sc = new Sc.
2021-09-01 17:24:20
773
4
原创 问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】
前两天有学妹私信我说,她已经上完大一,大数据专业的,只学过大数据导论,问我大数据该如何入门?我不禁感慨普通高校擅长培养算法人才,但在工程人才的培养上存在很多的问题。
2021-07-21 19:28:04
4389
48
原创 ❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。第一款
2021-07-10 10:06:40
4646
54
原创 学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日,那为师便来考考你学的如何:问题1:Rowkey如何设计,设计规则是什么?业务原则:贴合业务,保证前缀是最常用的查询字段唯一原则:每条rowkey唯一表示一条数据组合原则:常用的查询条件组合作为Rowkey散列原则:rowkey构建不能连续长度原则:满足业务需求越短越好.
2021-07-09 11:03:11
1251
17
原创 大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
操作系统概述目标:了解 操作系统 的作用1.1 操作系统(Operation System, OS)操作系统作为接口的示意图:没有安装操作系统的计算机, 通常被称为 裸机如果想在 裸机 上运行自己所编写的程序, 就必须用机器语言书写程序如果计算机上安装了操作系统, 就可以在操作系统上安装支持的高级语言环境,用于高级语言开发1.2 操作系统的种类桌面操作系统服务器操作系统嵌入式操作系统移动设备操作系统1.2.1 桌面操作系统Window 系列用户群体大macOS
2021-06-26 13:19:19
1811
15
原创 大数据Flink面试考题___Flink高频考点,万字超全整理(建议)
引言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。下面为模拟面试,假如面试官考你Flink相关,你该如何回答呢?1.简单介绍一下 FlinkFlink 核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数 据通信以及容错机制等功能。 基于流执行引擎,Flink 提供了诸多更高抽象层的 API 以便用户编 写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数
2021-06-23 23:22:10
2298
28
原创 使用记忆法打造你的大数据组件的默认端口号记忆宫殿
文章目录引言总结引言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。总结以上便是愿你读过之后有自己的收获,如果有收获不妨一键三连一下~...
2021-06-20 21:35:52
1614
13
原创 十年项目经验面试官亲传大数据面试__大数据面试独孤九剑
> 大家好,我是**ChinaManor**,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。 面试之前,需要针对每个大数据项目,整理一套属于自己基础知识,必须熟记于心
2021-06-11 15:38:26
1412
15
原创 实时即未来,大数据项目车联网之原始数据实时ETL落地HBase【八】
可以看到,加盐前的Rowkey默认会在第2个region中,加盐后的Rowkey数据会分布在3个region中,理论上处理后的吞吐量应是之前的3倍。由于前缀是随机的,读这些数据时需要耗费更多的时间,所以Salt增加了写操作的吞吐量,缺点是同时增加了读操作的开销。必须在设计上保证其唯一性,rowkey是按照字典顺序排序存储的,因此,设计rowkey的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。但是这里的量不能太大,如果太大需要拆分到多个节点上去。
2022-11-28 16:37:50
106
2
原创 实时即未来,大数据项目车联网之原始数据实时ELT流式任务流程总结【七】
使用自定义Hive Sink把数据写入到hive表中,创建SaveErrorDataHiveSink实现步骤:自定义HiveSink,继承RichSinkFunction方法,输入类型为重写open、invoke、close方法l open方法最先执行,用于初始化工作l invoke方法在open之后执行,执行具体任务和逻辑操作l close方法在invoke之后执行,用于释放资源。
2022-11-28 16:36:25
67
1
原创 实时即未来,大数据项目车联网之实时ETL开发的核心逻辑【六】
读取kafka数据后,对原始数据解析,筛选出解析成功的数据,并把数据转换对象,便于后续逻辑操作。//TODO 7)将json字符串解析成对象 SingleOutputStreamOperator < ItcastDataObj > itcastDataObjStream = dataStreamSource . map(JsonParseUtil :: parseJsonToObject);itcastDataObjStream . printToErr("解析后的数据>>>");
2022-11-28 16:34:29
160
原创 实时即未来,大数据项目车联网之实时ETL任务消费数据【五】
根据kafka属性配置创建FlinkKafkaConsumer,消费kafka数据。创建流式环境,设置检查点、kafka分区发现、任务重启策略,数据积压。数据入库,正确数据入hive与hbase库各一份,错误数据入hive。为了实现代码复用,提高开发效率,创建flink流式处理环境的工具类。u 原始文本为一行可成功解析的json格式数据,且。数据传输过程中,数据会传TSP造成数据丢失;数据采集终端设备故障,导致数据部分丢失。n 得到解析成功的数据,称为正确数据。n 得到解析失败的数据,称为异常数据。
2022-11-28 16:32:58
45
原创 实时即未来,大数据项目车联网之原始数据实时ETL任务消费数据策略【三】
不同 StateBackend 之间的性能以及安全性是有很大差异的。通常情况下,在代码中设置检查点存储,MemoryStateBackend 适合应用于测试环境,线上环境则最好选择存在挂在存储在磁盘上的FsStateBackend、RocksDBStateBackend。原始数据实时ETL,读取kafka中的原始json数据,解析json数据,flink实时逻辑开发,数据落地到hive与hbase。根据kafka集群中的数据进行实时ETL过滤,对数据进行划分,并将划分的数据分别落地到不同的数据库中。
2022-11-28 16:25:02
379
1
原创 助力工业物联网,工业大数据项目介绍及环境构建【一】
项目目标项目1:在线教育学习如何做项目,项目中大数据工程师要负责实现的内容和流程学习数仓基础理论:建模、分层项目2:工业大数据企业中项目开发的落地:代码开发代码开发:SQL【DSL + SQL】SparkCoreSparkSQL数仓的一些实际应用:分层体系、建模实现内容目标项目业务介绍:背景、需求项目技术架构:选型、架构项目环境测试目标了解Docker的基本功能和设计为什么要用Docker?什么是Docker?路径step1:生产环境的问题。
2022-11-28 15:53:05
1263
8
原创 工作常用之Yarn详解【五】资源调度与隔离
在YARN中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,YARN提供了多种调度器和可配置的策略供选择。在YARN中有三种调度器可以选择:FIFO Scheduler(先进先出调度器) ,Capacity Scheduler(容量调度器),Fair Scheduler(公平调度器)。默认情况下,Apache版本YARN使用的是Capacity调度器。
2022-11-28 11:16:06
148
原创 Cloudera Manager环境搭建【二】
进行Linux优化配置安装Cloudera Manager的Server和Agent安装Cloudera Manager监控Service使用CM安装大数据组件使用CM添加新服务器
2022-11-22 14:44:52
111
2
原创 Cloudera Manager环境准备【一】
因为业务隔离场景是不尽相同的,这里主要针对后者进行讲解:使得集群系统资源最大化利用,那首先要看业务对系统资源的需求情况。经过对线上业务的梳理,通常可将这些业务分为如下几类:
2022-11-22 14:21:56
688
转载 提升工作效率1000%之Linux三剑客(grep、sed、awk)
处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。RS:输入记录分隔符;注意:以上都是内置变量,在引用时不需要前面加$,每新建一个变量,都需要加个-v,与变量名之间有无空格都可以,变量可以在引用之后再声明,但那一行的输出会输出空行。下面所说的是Linux中最重要的三个命令在业界被称为“三剑客”,它们是awk,sed,grep。算术操作符:x+y, x-y, x*y, x/y, x^y, x%y。
2022-11-02 11:21:10
105
原创 工作常用之Hive 调优【四】HQL 语法优化
列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。成本优化器,代价最小的执行计划就是最好的执行计划。在读数据的时候,可以只读取查询中所需要用到的列,而忽略其他的列。
2022-10-01 06:00:00
246
原创 实时即未来,车联网项目之远程诊断实时故障分析【七】
监管部门或者车企通过判断实时上报的车辆数据,从而研判当前车辆故障诊断信息,给驾驶员发送预警告警信息等。① 内部管理系统针对车辆的故障查询统计信息② 实时监控大屏导入 redis 操作工具类——RedisUtil/*** 初始化连接池} } /*** @desc:获得jedis客户端* @return Jedis客户端。
2022-09-30 00:00:00
427
原创 工作常用之Hive 调优【三】 Explain 查看执行计划及建表优化
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。
2022-09-29 16:10:01
121
原创 实时即未来,车联网项目之电子围栏分析【六】
电子围栏简介和意义地理围栏是一个虚拟的空间围栏,可以帮助开发者检测人或物何时进入或离开预定义区域,并支持实时报警功能。电子围栏的应用场景签到打卡类场景共享单车类场景线下门店促销场景创建电子围栏在此项目中,使用的电子围栏是规则的圆形,判断是否在圆形电子围栏区域内,可以使用车辆位置和中心点球面距离小于等于半径,在电子围栏的区域内。还有一些不规则的电子围栏,这些可以使用射线取点的个数来判断是否在电子围栏内,如果是偶数在电子围栏外,否则是电子围栏内。
2022-09-29 08:00:00
890
原创 实时即未来,车联网项目之车辆驾驶行为分析【五】
一个完整意义的驾驶的行程,定义 15 分钟作为一个完整的行程,15分钟是停车前最后一条数据和驾驶前第一条数据之间间隔15分钟。
2022-09-28 12:00:00
415
原创 实时即未来,车联网项目之phoenix on hbase 即席查询【四】
zeppelin应用场景zeppelin安装介绍车辆电量统计报表车辆速度统计报表。
2022-09-27 19:24:47
957
原创 实时即未来,车联网项目之将数据落地到文件系统和数据库【三】
实现步骤/*** Desc 将每条车辆的数据直接写入到 Hive 中//定义 logger private static final Logger logger = LoggerFactory . getLogger(SaveErrorDataHiveSink . class);//2.创建有参构造方法,参数包括数据库名和表名 //定义变量 private String dbName;
2022-09-25 08:00:00
423
1
原创 实时即未来,车联网项目之原始终端数据实时ETL【二】
通过 flink 将解析后的报文 json 字符串推送到 kafka 中。使用 kafka tool 连接 kafka 集群,创建 topic。就是生产的数据大于消费的数据的速度,造成数据的积压。通过 credit 和 反压策略解决数据堆积问题。配置读取kafka的数据的设置。开启 kafka 集群。
2022-09-24 15:53:57
1161
1
MouseDrawColorTest.zip
2021-09-29
Oracle 转化成 Hive Sql的规则 正则已写好 (要求讲清思路)
2021-08-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅