才云开源云原生分布式训练项目 FTLib:支持弹性伸缩、自动容错

FTLib 是才云科技开源的支持弹性伸缩和自动容错的云原生分布式训练解决方案,目前正计划落地各类生产环境,帮助企业应对因训练数据量激增产生的意外情况,真正部署和运行大规模的分布式训练。

2020-03-20

微服务之服务治理(二):一文掌握 Envoy 限速配置

应用微服务架构后,你是否遇到过这些问题?后台资源被大量请求淹没耗尽、客户端持续发起请求直至服务宕机、分布式系统因超时而雪崩……随着微服务实施水平的不断深化,服务治理已经成为企业关注的一大核心话题。 为了帮助更多客户和工程师提升对服务治理的认知,继上回深度拆解 lyft/ratelimit(点击阅读)后,才云科技首席客户成功官 Keon 基于才云成功实践,再次对 Envoy 限速配置进行了深度剖析。

2020-02-28

才云重磅发布 2019 云原生中国落地情况白皮书!

2019 年,中国经济增速进一步放缓。在全球经济增长缓慢、全球贸易额持续走低的背景下,以云原生为代表的数字化技术正逐渐成为驱动企业增长的新引擎,帮助企业推动业务转型,突破增长困境。

2020-01-17

强化学习框架 Ray 在 K8s 上的自动伸缩设计与实现

为助力企业的智能化转型,才云不仅在深度学习的场景化应用上做了大量工作,也在学术界与世界一流大学开展强化学习和数据增强的研究,为企业广泛应用人工智能解决数据缺失难题,并分享云原生 + AI 的技术设计与实现。

2019-10-18

为什么才云能打进 500 强企业的财务部门?

很多 OCR 产品只是追求从 90% 到 90.01% 的炫技之作。而才云的成功之处,是正视了企业的现实情况,从平台级别实现一套通用的票据结构化识别流程,满足了企业在投入成本控制、自动化和软件长期价值上的综合收益。

2019-09-27

【深度】Kubernetes v1.16 最值得工程师关注的改动

昨天,Kubernetes 发布 2019 年的第三个新版本 1.16,才云第一时间对新版本重要更新做了精选整理,之后这篇文章被 CNCF 转发。经过一天的升级体验和对文档的细致阅读,才云现推出 Kubernetes v1.16 深度解读,以飨读者!

2019-09-23

云原生自动机器学习系统 Katib 的设计与实现

两年前,才云、谷歌、红帽等企业推出开源项目 Kubeflow,为企业基于容器和 Kubernetes 打造分布式机器学习平台,实现业务层面的分布式改造提供了机遇。作为该项目全球前三的贡献者,才云科技也一直致力于 Kubeflow 的技术推广和落地应用。

2019-08-29

从入门到大乘,才云开源内部 Kubernetes 学习路径

作为当前最流行的容器编排框架,Kubernetes 专为简化容器化部署而生。但随着云计算行业对 Kubernetes 人才需求的逐渐增加,越来越多人开始发现,学习 Kubernetes 并不是一件简单的事。

2019-07-25

Kubernetes Operator 测试面面观

软件测试是一门工程技术,更是一门艺术。维护良好、质量过硬的测试用例不仅能大幅提高开发者的工作幸福感,也是企业对外提供优质软件服务的重要基础。在这篇文章中,才云工程师 gaocegege 将分享团队在 Kubernetes Operator 测试方案上的一些心得。

2019-07-17
点击体验,开启谷歌级数字化之旅
立即体验
立即咨询