Harvey AI 推出按需视觉功能,用于法律文件分析
James Ding 2026年05月07日 03:05
Harvey AI 的新系统能够对法律文件中的图表和示意图进行精准推理,解决传统 OCR 方法中代价高昂的缺陷。
Harvey AI 推出了一款按需视觉系统,旨在解决法律科技领域长期以来的一大难题:理解并推理法律文件中的视觉元素。与传统 OCR(光学字符识别)流程将图表、示意图和表格简化为纯文本不同,该新系统仅在必要时才读取和解析视觉内容,从而同时提升准确性和效率。
法律文件很少只包含文字,通常还涵盖财务图表、工程示意图,甚至平面图。这些元素对决策至关重要,但 AI 系统向来难以有效处理。Harvey AI 的解决方案允许用户直接查询这些视觉内容,并提供详细的、具备上下文感知能力的答案。例如,当被问及"第 47 页的收入图表显示了什么?"时,系统不仅仅提取数据,还会分析坐标轴、插值未标注的数据点,并提供结构化见解。
为何重要
传统文件处理模型无法捕捉非文本元素的复杂性,导致 AI 生成的回应出现遗漏。Harvey 的新系统通过采用选择性、查询驱动的方式正面解决这些缺口。系统不在文件摄取阶段处理所有视觉元素,而是仅在用户问题需要时才激活视觉功能。这避免了不必要的计算成本——对于跨数十亿张图像的扩展至关重要——并确保在最关键的地方实现高保真分析。
主要功能
- 智能页面检测:系统在分析视觉内容前,先使用基于文本的搜索识别相关页面,可在毫秒内将一份 500 页的文件缩小至少数候选页面。
- 高分辨率渲染:文件被转换为统一格式并以高 DPI 渲染,保留小型图表标签和复杂版面等细节。
- 结构化视觉推理:视觉模型不仅仅描述图像,还能提取数值、读取图表坐标轴,并区分精确与近似数据点。
- 成本优化:通过按需处理视觉内容,Harvey 大幅降低了计算成本。早期测试显示,文件中多达 90% 的视觉元素对于回答用户查询而言是不必要的。
挑战与创新
为法律科技构建可扩展的视觉系统面临独特挑战。法律文件在格式和复杂性上差异悬殊,从手写注释到超大型图表不一而足。Harvey 的解决方案整合了高速渲染服务,并确保文件格式的一致性。此外,系统还融入了"优雅降级"机制,在视觉元素缺失或不清晰时避免产生幻觉式答案,转而报告其能够确定与无法确定的内容。
真实测试的收获
在评估过程中,Harvey 的系统展示了以高精度回答涉及图表和示意图的复杂查询的能力。值得关注的是,许多问题仅凭文本便得以解决,这印证了 Harvey "文本优先、视觉次之"设计理念的高效性。该架构确保对基于文本的查询快速响应,同时将视觉分析保留用于真正复杂的情况。
展望未来
Harvey AI 计划将其视觉功能扩展至其他领域,包括更高级的示意图解析以及针对边缘案例的增强渲染。公司还专注于降低延迟,并进一步完善工具识别何时需要视觉分析的能力。
凭借这一创新,Harvey 为法律科技领域的 AI 树立了新标准,将成本效益与处理复杂文件的卓越精准度融为一体。对于处理数据密集型案件的法律专业人士而言,这款工具代表着重大的飞跃。
如果构建此类系统令你兴奋,Harvey AI 正在招聘。点击此处探索开放职位。
图片来源:Shutterstock- ai
- legal tech
- document processing
- harvey ai








