职位描述
1、业务系统维护和管理:负责公司核心业务生产系统及内部支撑平台的部署、持续优化及稳定运行维护。
2、自动化与智能化运维:主导构建、落地并持续优化基于AI技术的自动化运维平台,提升运维效率和质量。
3、稳定性保障体系: 搭建、维护高可用的监控告警体系,并基于运行数据分析持续提出架构和性能优化建议,保障关键业务SLA。
4、变更管理与交付:负责各业务和支撑系统的软件版本发布管理,包括部署、回滚、灰度发布策略制定与执行,保障变更安全可控。
5、文档与知识积累:规范编写和维护系统架构、运维流程、应急预案等相关技术文档。
技术支撑与协作:解决系统复杂技术问题,与开发、测试等团队紧密协作,提供基础设施和系统层面的技术支持和解决方案。
任职要求
1、计算机相关专业本科及以上学历,3年以上较大规模分布式系统的运维经验;
2、熟悉Linux操作系统的核心原理、日常运维、性能调优、安全加固与疑难问题排查;
3、熟悉中间件与开发框架的部署、配置、监控与故障处理。主要包括:Java Spring Cloud微服务生态及其核心组件;Python Web框架(Django/FastAPI);
4、熟悉Nginx/Redis/RabbitMQ/Kafka等组件的高可用设计、性能调优及全链路监控,精通分布式中间件运维,具备规模应用场景下的故障处理经验;
5、熟悉MySQL/Oracle等关系型数据库的基本原理、安装配置、维护排障、日常管理操作(备份恢复、用户权限)、基本性能调优及SQL语句编写;
6、精通至少一种主流监控告警系统的部署、配置与应用(如 Prometheus + AlertManager + Grafana 或 Zabbix);
7、熟悉主流云平台(阿里云/华为云/腾讯云等)、Docker容器技术及Kubernetes容器编排平台的应用部署、运维与优化;
8、熟练掌握Shell/Python脚本编写;熟悉Ansible、Jenkins等自动化工具者优先化;
9、了解SIP、FreeSwitch语音系统相关知识和经验的,优先考虑;
10、具备较强的学习能力和技术敏感度,具备良好的逻辑、沟通协作能力以及责任心。
个人语音业务部