AI视觉进入“大模型时代”不仅“看得见”还“看得懂”

　　AI视觉进入“大模型时代”不仅“看得见”还“看得懂”

　　智慧安防领域需求旺盛更强调个人隐私权保护

第十九届中国国际社会公共安全博览会现场。

智慧安防更注重隐私保护。

　　近日，第十九届中国国际社会公共安全博览会(以下简称“CPSE安博会”)和全球数字城市产业博览会在深圳会展中心落幕。在6万平方米的数字城市产业展区中，随处可见AI摄像头和AI综合数据分析图，而行业大模型在展会上也出现得更多了。

　　记者采访了解到，AI大模型如今已成为“兵家必争之地”，而安防行业则成为AI的“第一着陆点”，丰富的感知设备和数据维度，让这一领域更加成为AI大模型等前沿技术的试验田。而中国企业在智能安防领域的“领跑式发展”，也为安防产品“出海”奠定基础，在AI技术的加持下，安防行业又迎来了一轮革新，将成为民众更好的“隐形守护者”。

　　文、图/广州日报全媒体记者冯秋瑜

　　数字孪生、视觉分析：

　　智慧安防营造安全、舒适社区

　　记者在现场采访发现，大到天地传感，小到社区“最后一公里”，在新技术的助力下，我们所居住的城市正在加速向“智慧城市”转变，计算机视觉(CV)作为人工智能领域最大的应用领域，在人脸识别、视频监控、门禁卡、防盗报警等智慧安防领域率先实现了商业化。

　　“相比于传统的社区管理模式，‘智慧社区’更加以人为本，以不断满足居民的幸福感和满意度为核心，为居民提供更便捷、安全的社区环境，让孩子茁壮成长，让老人尽享天伦。”英特尔中国区物联网及渠道数据中心事业部总经理郭威告诉记者，之前的摄像头只是“看得见”，而智能视频分析系统可以“看得懂”。

　　据了解，智能视觉分析通过对采集社区中的人、车、公共设施等管理对象的视觉数据进行智慧化的数据洞察，实现“入侵”“攀高”“自行车/电动自行车违停”“乱丢垃圾”“高空抛物”“水域入侵”“占道堆物”等方面的识别需求，在事件发生后，系统能够在3秒内通过AI应用对图像进行识别并判断该事件是否违规，并在5分钟内处置完成，从而营造更智能、安全、舒适的社区和公共环境。

　　“地面沉陷、暴雨成灾、交通拥堵等是城市发展中遇到的共性问题，利用时空大数据建设好基于数字孪生的智慧城市，可以推动城市升级发展。”中国科学院院士、中国工程院院士李德仁向记者介绍了基于天地传感网的数字孪生技术在灾害智能管理方面的应用：“今年5月21日，国际首颗遥感成像、气象探测和水利应用一体化卫星‘珞珈二号’在酒泉卫星发射中心发射，能满足目标识别级的遥感感知的高分辨率、视频等多种探测需求。在今年夏天京津冀地区的防汛工作中，‘珞珈二号’观测到堤防决口的影像，第一时间发布预警，帮6300余名群众当天完成转移。”

　　动态监测老人、赛事、施工

　　“AI视觉行为分析”实时告知

　　“摄像头我们已经用很多年了，最大的感触就是无法事前报警。比如说，有的老人在起居室里摔倒了，或者小孩爬到没有关闭窗户的危险地带，原来的摄像头可能会认出来有老人有小孩，但它不能理解画面的语义；但当摄像头有了一个‘认知性大脑’，看到这些场景时，自然就会联想到这个人可能处在危险之中，从而实现事中的监测和预警。”上海趋视科技总裁徐飙向记者介绍了其最新的“AI视觉行为分析”技术：“采用TOF(Time-of-Flight) 传感器采集数据，并通过‘智能分析仪’进行AI推理，可以精准地识别老人跌倒、久坐不起等风险因素，通过APP实时将信息发送至家人或社区服务人员手机端。”

　　徐飙介绍：“比如，某街道违章停车、渣土车违规行驶、无证摊贩临时摆摊、商铺占道经营、乱倒垃圾等社区问题频现，对于人员缺乏的社区管理队伍而言，会出现如问题发现不及时，协调成本高，管理缺少数据支撑等现象；而智能视频行为分析技术给街道每一部摄像机都装上‘AI 大脑’，实时分析街面情况，对违规行为自动且及时地上报。当侦测到指定区域内出现违规行为，系统会生成提醒信号，实时推送到管理人员随身设备中，实现社区问题处理敏捷化。”

　　高新兴科技集团首席技术官陈利军对记者介绍，在即将于12月24日于广州举行的黄埔马拉松比赛中，通过在沿路高耸的楼宇部署的AI视频监控和无人机，可以做到赛事的全程管控。“无论队伍到哪里，整个队伍都是在可视范围内。比如说哪里发生拥挤或是有什么异常，AI视觉分析可以协助管理人员快速掌握全局。”

　　记者采访发现，通过“AI视觉行为分析”，在马路上，摄像头可以识别车牌、追踪违规行为；在工地上，可以识别工人是否佩戴工作手套、绝缘鞋、护目镜等，为工人施工建立安全屏障；在校园里，有了“AI校园防欺凌终端”，可以针对“救命、打架、110”等异常词汇进行采集；而在食堂，“明亮灶厨算法”能让摄像头识别厨师有没有戴厨师帽和口罩，还有各种用具的摆放合不合规，食堂够不够卫生、有没有老鼠等；在家门口，可视门铃能够识别来访是你的家人、朋友还是陌生人。

　　视觉大模型被“引爆”

　　多模态AI学人类“感知”世界

　　在本次CPSE安博会上，至少有六家头部企业推出了通用或行业大模型，或是展示大模型应用。郭威认为，视频大模型已成为继自然语言处理(NLP)之后AI技术的下一个引爆点。“大模型最大的意义是让我们从判别式AI走向深层次判别式的AI，前者主要从数据和信号中去提取特征进行识别，完成像人脸识别语音识别、图像识别这样的任务；而后者可以在海量数据训练的基础上生成文字、语言、图片、视频代码甚至算法，完成各类专业人士的工作，在生产力的提升上更为直接。”

　　计算机视觉已经迈入“大模型时代”，在许多领域都展现出了巨大潜力和价值，安防领域也不例外。记者采访了解到，目前安防产业链上的各细分领域企业也推出了自己的大模型，如大华的“星汉”以视觉解析为核心；宇视科技的“梧桐”集CV行业、NLP行业等于一身，能够满足多样化的任务和场景需求；云从科技的大模型“从容”应用于视频监控、入侵检测、人脸识别等过程中的数据分析，“行人基础大模型”覆盖了人体全局属性(性别、年龄)、局部属性(穿戴风格、配饰)、携带属性(手机、刀棍、手提包等)、人-物交互HOI(抽烟，持刀棍，手机拍屏幕)等，广泛应用于矿山、建筑工地以及特殊场所的安全布控，监控作业人员穿戴合规，姿态行为等异常和违规行为。

　　熵基科技首席科学家陈书楷介绍：“我们人类的智慧体现在我们可以通过感知、思考和行动来改变世界。现在机器也拥有了‘感知’和‘思考’的能力，伴随AI的发展，机器必须通过视觉来理解周围的环境，做出决策。”该企业自研的BioCV大模型可以实现园区运行安全“一屏统览”。陈书楷表示，多模态AI结合了更多的感官模式，它模仿了人类感知世界的方式，能够为多样化场景下的智能个性化应用开创全新可能。

　　明年有望大范围落地

　　智慧社区更关注隐私保护

　　国际数据公司(IDC)数据显示，自2023年开始，随着大模型、生成式AI的盛行，智慧城市人工智能市场迎来新的机遇。IDC预计，未来5年人工智能将进入大规模落地应用关键期。

　　一位业内专家在接受记者采访时谈到，随着AI和大模型一日千里的发展，智能视觉技术将在所有垂直行业得到更广泛的应用。“在大模型实施之后，因其更好的理解能力和更高的训练效率，我们可以用相对少的数据就达到非常高的准确度。针对不同的场景，大模型的泛化能力也比传统AI有非常大的提高。”

　　郭威认为：“大模型现在各个行业都在试，我觉得明年在很多行业，特别是在很多智慧社区，大模型能够有效落地，形成商业闭环。”

　　智慧社区对于人工智能有着旺盛的需求，也是能够实现规模化发展、可复制性强的场景。记者发现，在此次CPSE安博会上，“个人隐私保护”也被多位专家和业内人士着重强调。“视觉分析系统涉及采集并分析一些日常生活画面，需要平衡监控与隐私保护之间的关系，确保合理使用和保护个人隐私权。”据了解，针对智慧社区场景的特点，趋视科技、精华隆智慧感知等企业采用了可以“脱敏”的采集技术，不是通过视频监控，而是通过仅可见“影子”的深度图像，反映景内物体的距离和角度值，不直接包含面部、身体或其他私人信息，大大降低了隐私泄露的风险。

　　记者采访发现，目前部分智能安防产品和现有的基础大模型还没有挂钩，但徐飙介绍，未来，相关安防设备可以和目前一些成熟的语音大模型对接，感知方式从视觉延伸到红外、雷达、光纤、声纹等更多维度，随着TOF类雷达传感器的不断应用，除了语音和图像外，第三维深度数据感知越来越丰富，基于深度数据的大模型必将把机器“认知”世界的能力带到一个新高度。(广州日报)

【编辑:曹子健】

相关推荐