Principle:Ucbepic Docetl Chunk Processing

Knowledge Sources	DocETL Docs DocETL
Domains	NLP, LLM_Operations
Last Updated	2026-02-08 01:40 GMT

Overview

An LLM transformation principle that processes each document chunk independently using a prompt template and structured output schema.

Description

Chunk Processing applies an LLM to each document chunk independently, extracting information, generating analyses, or transforming content according to a Jinja2 prompt template. Each chunk is processed in parallel, and results include the extracted fields defined by the output schema.

Key features include:

Jinja2 Templating: Prompts reference chunk fields via Template:Input.field syntax
Structured Output: JSON schema enforcement for consistent output structure
Gleaning: Optional iterative validation rounds for quality improvement
Batching: Process multiple chunks in a single LLM call for efficiency

Usage

Apply this principle after document splitting (and optionally gathering) when each chunk needs independent LLM processing. Common use cases include information extraction, summarization, classification, and analysis.

Theoretical Basis

Map-style parallel processing:

Template Rendering: Fill Jinja2 prompt with chunk data
LLM Invocation: Send rendered prompt to LLM with output schema
Schema Validation: Validate LLM output against expected types
Gleaning (Optional): Iteratively refine output through validation rounds
Result Collection: Aggregate chunk-level results

Related Pages

Implemented By

Implementation:Ucbepic_Docetl_MapOperation_Execute

Page Connections

Double-click a node to navigate. Hold to expand connections.

Principle

Implementation

Heuristic

Environment