基于 Kubernetes 的 GPU 类型调度实现

3 月 27 日,ACM 宣布深度学习的三位缔造者——Yoshua Bengio、Yann LeCun 及 Geoffrey Hinton 获得了 2018 年度的图灵奖。与学术界相对应的,在工业界,人工智能大潮也正汹涌奔来。除了冲击人们的衣食住行医,人工智能也将成为企业转型的颠覆性力量,是企业抓住下一轮创新发展的重要机遇。

2019-05-07

当我们在谈论机器学习平台时,我们在谈什么

近年来,AI 领域屡现突破性进展,吸引了全球企业争相采用 AI 技术来培育新增长、形成新动能、加快产业与科技的创新融合。在这个背景下,AI 人才开始供不应求,AI 产品迎来爆发。然而新技术总有一定壁垒,机器学习不仅需要算法科学家构建新模型,工程师应用新模型,还需要工程师合力建设机器学习平台。而在应用机器学习的企业和团队中,建设机器学习平台正是重要一环。

2019-03-27

实战:通过 Pod Priority 保障 Kubernetes 中的关键组件

集群内部运行的组件,某些组件会相比其他组件来说更为重要,缺少了这些组件,集群的核心功能或者用户业务将无法得到保障:比如 DNS 组件,当 DNS 组件运行异常,集群内部的 DNS 服务将不可用;又比如网络组件,当网络组件异常,某个节点甚至集群的网络将不可用。

2018-03-29

编排的艺术| K8S 中的容器编排和应用编排

众所周知,Kubernetes 是一个容器编排平台,它有非常丰富的原始的 API 来支持容器编排,但是对于用户来说更加关心的是一个应用的编排,包含多容器和服务的组合,管理它们之间的依赖关系,以及如何管理存储。

2018-02-21

打破瓶颈 | Prometheus Remote Storage 实践

Prometheus 的设计者非常看重监控系统自身的稳定性,所以 Prometheus 仅仅依赖了本地文件系统,而这就决定了 Prometheus 自身并不适合存储长期数据。

2018-01-09

玩转 Kubernetes 权限控制 AuthN/Z

AuthN/Z 是系统设计中相当重要的一环,它在很大程度上决定了 Kubernetes 能否成为一个企业级的解决方案。然而,严格的权限管理也给 Kubernetes 的使用带来了一定的麻烦,大大提高了 Kubernetes 的入门门槛。

2017-10-18

“高冷”的 Kubernetes Informer 一探究竟

今天给到大家介绍一下 Client-go 中的一个非常关键的工具包 Informer。 Informer 内部实现极其复杂,详细介绍的文章也很少,很多人反馈比较难用。但不得不承认它也是一个设计精良、安全可靠的组件,值得我们去一探究竟。

2017-09-13

用 Harbor 和 Kubernetes 构建高可用企业级镜像仓库

才云 Caicloud 高级软件工程师,先后负责镜像仓库,容器云平台等产品研发,目前负责才云科技大数据平台与容器云平台整合的相关工作。2011 年毕业于电子科技大学微电子技术专业,曾于 2010 年参与亚太大学生机器人大赛,代表电子科大获全国第一名,后代表中国队在埃及获金牌。

2017-04-06

才云工程师原创|Kubernetes dynamic provisioning 及 glusterfs 对接

传统的运维中,往往需要管理员手动先在存储集群分配空间,然后才能挂载到应用中去。Kubernetes 的最新版中,dynamic provisioning 升级到了 beta ,并支持多种存储服务的动态预配置,从而可以更有效地利用存储环境中的存储容量,达到按需使用存储空间的目的。本文将介绍 dynamic provisioning 这一特性,并以 GlusterFS 为例,说明存储服务与 k8s 的对接。

2017-03-02