摘要

本文围绕 HarmonyOS 6.1.1(API 24) 在 AI 字幕、卡证识别、WebP 元数据和地点搜索相关性方面的增强,设计一套智能信息助手。文章以跨境就医登记为案例,讲解统一识别结果、置信度、人工确认、无障碍字幕、隐私最小化、地点综合排序和异常降级。

关键词:HarmonyOS 6.1.1;Speech Kit;Vision Kit;Image Kit;Map Kit;AI字幕;卡证识别;WebP元数据

图 1  HarmonyOS 6.1.1 智能信息能力地图

文章目录

  • 1. 6.1.1 为什么适合构建智能信息助手
  • 2. AI 字幕不只是语音转文字
  • 3. 卡证识别扩展带来的业务价值
  • 4. WebP 元数据为什么重要
  • 5. 地点相关性评分改变搜索排序
  • 6. 推荐架构:统一识别结果模型
  • 7. 跨境就医登记案例
  • 8. 人工确认是智能能力的正式组成
  • 9. 代码案例一:统一识别结果
  • 10. 代码案例二:地点综合排序
  • 11. 代码案例三:字幕无障碍配置
  • 12. 隐私:原始材料比识别结果更敏感
  • 13. 无障碍设计不能只调大字号
  • 14. 异常与降级
  • 15. 测试清单
  • 16. 本文小结
  • 17. 能力与风险矩阵
  • 18. 参考资料

1. 6.1.1 为什么适合构建智能信息助手

HarmonyOS 6.1.1(API 24) 在 Speech Kit、Vision Kit、Image Kit 和 Map Kit 等方向增强了信息处理能力。AI 字幕支持设置源语言、目标语言、字体大小和颜色;卡证识别增加港澳居民来往内地通行证与台湾居民来往大陆通行证;Image Kit 支持 WebP 元数据;地点搜索结果增加相关性维度。这些能力可以组合成从采集、识别、质量判断到业务操作的智能信息助手。

2. AI 字幕不只是语音转文字

字幕组件承担沟通和无障碍责任。源语言、目标语言决定是否需要翻译,字号和颜色决定用户能否看清。会议、就医、课堂和直播场景的环境不同:嘈杂环境需要更醒目的字幕,听障用户需要更大字号和高对比,双语沟通需要清楚区分原文与译文。应用应保存用户偏好,而不是每次恢复默认样式。

3. 卡证识别扩展带来的业务价值

新增通行证识别支持,使跨境出行、酒店登记、医疗挂号和政务办理可以减少手工输入。但识别结果不能直接作为最终事实。证件反光、磨损、遮挡和拍摄角度会影响结果,姓名、号码、有效期等关键字段应显示置信度或待确认状态,由用户核对后再写入业务系统。

4. WebP 元数据为什么重要

WebP 已广泛用于网络图片和应用素材。元数据不仅描述宽高,还可能包含创建信息、方向、来源和业务标签。6.1.1 提供 WebP 元数据类后,媒体管理、内容溯源和图片归档可以覆盖更多格式。应用修改元数据时要避免破坏原图,并区分用户可见信息和隐私字段,例如地理位置不应默认保留在公开分享图片中。

5. 地点相关性评分改变搜索排序

地点搜索不能只看距离。用户搜索“儿童医院”时,最近的地点可能并不匹配关键词;相关性评分可以帮助判断结果与查询意图的接近程度。高质量排序应综合 reliability、距离、营业状态、行政区和用户历史,而不是单一字段决定。相关性较低时要提示用户补充城市、区域或更具体关键词。

6. 推荐架构:统一识别结果模型

字幕、卡证、图片元数据和地点搜索返回的数据结构不同,但都可以抽象为 RecognizedResult:包含 source、fields、confidence、warnings、rawRef 和 traceId。业务层只处理统一模型,识别适配层负责调用不同 Kit 和转换错误。这样可以统一做低置信度确认、敏感字段遮罩、日志脱敏和人工修改。

图 2  智能信息助手分层架构

7. 跨境就医登记案例

患者使用通行证办理跨境就医。应用先通过双语字幕辅助沟通,再拍摄通行证提取姓名和证件号;用户核对后填写挂号资料;系统搜索医院院区并结合相关性和距离排序;上传的 WebP 检查资料读取必要元数据用于归档。整个流程中,证件号码默认遮罩,原始图像在完成登记后按策略删除。

图 3  跨境就医智能登记助手案例

8. 人工确认是智能能力的正式组成

智能识别不是为了完全消灭人工输入,而是减少重复劳动。低置信度字段、同名地点、翻译歧义和缺失元数据都应进入确认流程。确认页面要突出有问题的字段,不要让用户重新检查全部内容。用户修改后的值应与原始识别结果分开保存,便于分析模型效果但不能在日志中泄露敏感信息。

图 4  一次智能信息采集任务的完整闭环

9. 代码案例一:统一识别结果

统一模型可以承载字幕、证件字段、图片属性和地点候选,并让业务规则复用同一套置信度和警告处理。

export interface RecognizedField {
  name: string
  value: string
  confidence?: number
  sensitive: boolean
  confirmed: boolean
}

export interface RecognizedResult {
  source: 'caption' | 'credential' | 'imageMetadata' | 'place'
  fields: RecognizedField[]
  warnings: string[]
  traceId: string
}

10. 代码案例二:地点综合排序

相关性不是唯一排序条件。示例将相关性、距离和是否在目标行政区组合成业务分数,实际权重应通过场景测试确定。

function placeScore(site: SiteCandidate, targetDistrict: string): number {
  const relevance = site.reliability * 0.65
  const distance = Math.max(0, 1 - site.distanceMeters / 20000) * 0.25
  const district = site.district === targetDistrict ? 0.10 : 0
  return relevance + distance + district
}

const sorted = candidates.sort((a, b) =>
  placeScore(b, district) - placeScore(a, district)
)

11. 代码案例三:字幕无障碍配置

字幕配置应来自用户偏好和当前场景,同时保证前景与背景对比度足够。

const captionOptions = {
  sourceLanguage: 'zh',
  targetLanguage: 'en',
  fontSize: userPrefs.largeText ? 28 : 20,
  fontColor: userPrefs.highContrast ? '#FFFFFF' : '#F4F4F5',
  backgroundColor: userPrefs.highContrast ? '#000000' : '#CC111827'
}

12. 隐私:原始材料比识别结果更敏感

证件照片、语音流和带位置元数据的图片属于高敏感材料。能端侧完成就不上传;必须上传时使用加密传输、短期存储和明确用途。业务完成后按策略删除原始文件,长期记录只保留必要字段。日志不得输出完整证件号、原始字幕全文或图片地理位置。

13. 无障碍设计不能只调大字号

大字号之外,还要考虑颜色对比、字幕行数、阅读速度、原文与译文区分、屏幕阅读器标签和触控目标尺寸。字号变大后不能遮挡主要内容,长句应合理换行。听障用户需要稳定字幕,视力障碍用户可能更依赖朗读和高对比模式,应用应提供多通道反馈。

14. 异常与降级

识别服务不可用时,提供手工填写;相机权限拒绝时,允许从相册选择或直接输入;字幕翻译失败时仍展示原文;WebP 元数据不完整时不阻止图片上传;地点相关性都很低时展示地图选点。降级目标是让任务继续,而不是强迫用户反复重试智能能力。

15. 测试清单

测试应覆盖普通话和英语、方言与噪声、不同字号、深浅色背景、证件反光和遮挡、繁简体姓名、WebP 有无元数据、图片方向、同名地点、低相关性结果、权限拒绝、离线、清后台和敏感日志检查。还要邀请真实无障碍用户参与可用性测试。

图 5  智能识别结果的正确使用方式

16. 本文小结

HarmonyOS 6.1.1 的字幕、视觉、图像和地图能力可以组成完整的信息助手。高质量应用不会迷信识别结果,而是同时设计置信度、人工确认、隐私最小化、无障碍样式和失败降级,让智能能力真正减少用户负担。

17. 能力与风险矩阵

能力

业务价值

主要风险与控制

AI 字幕

跨语言沟通和听障辅助

翻译歧义;保留原文、允许纠错、样式可调

卡证识别

减少登记输入

字段误识别;关键字段必须人工确认

WebP 元数据

媒体归档和来源追踪

位置隐私;分享前清理敏感元数据

地点相关性

提升地点搜索准确度

单一评分偏差;综合距离和行政区

Logo

讨论HarmonyOS开发技术,专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐