谷歌出品 | LangExtract：让AI读懂文本的每一个细节

想象一下，当你面对一篇长达数万字的医学报告、一份充满专业术语的法律文档，或是一部世界文学名著，你需要从中提取关键信息、分析核心观点、总结主要内容——这在过去可能需要花费数小时甚至数天的时间。但现在，谷歌的最新开源项目LangExtract，将彻底改变这一切。

作为谷歌在文本处理领域的最新成果，LangExtract利用大型语言模型的强大能力，让你能够在几分钟内从任何非结构化文本中提取结构化信息。无论是临床笔记、法律合同、学术论文还是社交媒体内容，LangExtract都能精准捕捉到你需要的每一个细节。

七大核心优势，定义文本处理新标杆

1. 精确溯源，有据可查

在医疗诊断报告中，一个数字的偏差可能关乎生命；在法律合同里，一个条款的误读可能引发巨额损失。LangExtract深知这些领域对准确性的极致追求，因此为每一个提取结果都配备了精确的溯源机制。它会精确定位到源文本中的具体位置，并支持可视化高亮显示。这意味着你可以轻松验证每一个提取结果的准确性，确保信息的可靠性和可追溯性。这种级别的精确度，为高风险决策提供了坚实的保障。

2. 严格的结构化输出

传统信息提取方法常常面临格式混乱、结果不一致的问题，导致后续处理困难重重。LangExtract则通过少量示例，就能生成一致且严格的输出格式。它利用谷歌Gemini等模型的受控生成能力，确保结果的结构化和可靠性。无论你需要提取的是客户信息、产品规格还是实验数据，LangExtract都能以统一的格式呈现，让数据处理变得简单高效。

3. 长文档处理专家

处理大型文档就像在大海中捞针，传统方法往往效率低下、召回率不高。LangExtract采用了谷歌工程师精心设计的优化策略——智能文本分块、高效并行处理和多轮提取机制。它会自动将长文档分割成合适的小块，并行处理每个小块，然后通过多轮提取确保关键信息不被遗漏。这种创新的处理方式，显著提高了信息召回率和处理效率，让你轻松驾驭海量文本。

4. 交互式可视化体验

提取结果不仅仅是枯燥的数据，LangExtract还能将其转化为直观的交互式HTML文件。你可以在原始上下文中可视化和审查数千个提取实体，通过点击、缩放等操作深入了解信息之间的关联。这种直观的展示方式，让复杂的信息变得易于理解和分析，帮助你更快地发现隐藏在文本中的规律和洞察。

5. 多模型支持，灵活选择

不同的场景需要不同的模型支持。LangExtract支持从谷歌Gemini系列到OpenAI模型，再到通过Ollama运行的本地开源模型的多种选择。如果你需要云端的高性能计算，可以选择谷歌Gemini或OpenAI模型；如果你更注重数据隐私，偏好本地处理，Ollama运行的本地开源模型将是你的理想之选。无论你的需求是什么，LangExtract都能提供灵活的解决方案。

6. 领域自适应，无需训练

在特定领域中应用文本处理工具，往往需要进行繁琐的模型微调，这不仅耗时费力，还需要专业的技术知识。LangExtract则打破了这一壁垒，只需提供几个示例，你就能为任何领域定义提取任务。它利用谷歌LLM的强大泛化能力，无需模型微调，就能快速适应你的特定需求。无论是金融、教育还是制造业，LangExtract都能轻松上手，大大降低了使用门槛。

7. 知识融合，智能扩展

文本中的信息往往不是孤立存在的，它们之间存在着千丝万缕的联系。LangExtract通过精确的提示词设计，不仅能提取文本中的明确信息，还能利用谷歌LLM的世界知识进行合理推断和补充。例如，当提取到一个疾病名称时，LangExtract可以自动补充相关的症状、治疗方法等信息，让提取结果更加丰富和有价值。这种知识融合的能力，让你从文本中获得的不仅仅是信息，更是深度的洞察。

一键上手，开启智能文本处理新体验

简单安装，即刻体验

bash
pip install langextract

五步完成信息提取

定义任务：用自然语言描述你想要提取的信息，例如“提取客户的姓名、地址和联系方式”。
提供示例：展示几个高质量的提取示例，帮助LangExtract更好地理解你的需求。
输入文本：上传或提供要处理的文本，可以是单个文件，也可以是多个文件的集合。
选择模型：根据你的需求选择适合的模型，如谷歌Gemini、OpenAI模型或本地开源模型。
获取结果：轻松获得结构化的提取结果，你可以直接使用这些结果进行分析、报告或其他后续处理。

示例：从《罗密欧与朱丽叶》中洞察人物关系

python
import langextract as lx

prompt = "提取人物、情感和他们之间的关系"
examples = [
    lx.data.ExampleData(
        text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.",
        extractions=[
            lx.data.Extraction(
                extraction_class="character",
                extraction_text="ROMEO",
                attributes={"emotional_state": "wonder"}
            )
        ]
    )
]

result = lx.extract(
    text_or_documents="Lady Juliet gazed longingly at the stars, her heart aching for Romeo",
    prompt_description=prompt,
    examples=examples,
    model_id="gemini-2.5-flash"
)

通过这个简单的示例，你可以看到LangExtract如何轻松从文学作品中提取人物情感和关系。无论是处理文学作品、商业文档还是学术论文，LangExtract都能为你提供高效、准确的文本处理解决方案。

目录