工作描述:
核心职责
1. OCR与文档信息抽取,研发高精度文字检测与识别模型,支持复杂场景(遮挡、弯曲文本、多语言)下的票据、证件、档案等文档的结构化识别。
设计基于版式解析的键值对抽取算法,结合文档结构(如表格、篇章布局)实现语义实体识别(SER)与关系抽取(RE),提升关键信息提取准确率。
2. 目标检测与物品识别 ,开发通用目标检测算法(如YOLO系列、Faster R-CNN),应用于静态图像与动态视频中的多类别物体定位与识别。优化模型在遮挡、小目标、复杂背景下的鲁棒性,并适配边缘计算设备(Jetson、NPU等)部署。
3. 视频处理技术,构建视频分析管道,实现动态场景中的多目标跟踪(MOT)、行为识别及时序特征提取。熟练运用视频编解码标准(H.264/H.265)及处理工具(FFmpeg、OpenCV)。
4. 大模型技术应用,探索多模态大模型(如LayoutXLM、ViT)在文档理解、视觉推理中的落地,集成SAM(分割一切模型)、DINO等自监督模型解决少样本或零样本检测任务。
5. 全流程工程落地 ,负责从数据标注、模型训练、评估到推理加速(ONNX、TensorRT)的端到端实现,确保算法在工业场景中的高效稳定。
6. 容器化部署与工程优化,使用Docker实现算法模型的容器化封装,确保环境一致性,并通过Kubernetes管理容器集群,实现资源调度与弹性伸缩 。
职位要求:
任职要求
1、计算机、人工智能、电子工程等相关专业硕士及以上学历,3年以上CV算法研发经验;优秀本科生可放宽要求。
2、精通Python/C++,熟练使用PyTorch、TensorFlow等深度学习框架。
3、熟悉OpenCV、Halcon等图像处理库,及OpenVINO、TensoRT等推理引擎。
4、扎实的图像处理与深度学习基础,熟悉CNN、Transformer等网络结构,熟悉YOLO系列算法并进行过优化。理解文档结构分析(如LayoutLM、GCN方法)或目标跟踪算法(如DeepSORT、ByteTrack)。
5、具备模型压缩(剪枝、量化)、多平台部署经验,熟悉COCO、MOT等数据集评估标准。
6、在OCR、KIE、目标检测等领域有顶级会议(CVPR、ICCV等)论文或开源项目贡献,熟悉多模态融合、强化学习等扩展技术,具备金融、安防、工业检测等项目经验,强烈的技术热情,良好的逻辑思维和团队协作能力,能独立攻克技术难点。
收藏
取消收藏
已投递