neuralmagic · rahul-tuli · Aug 25, 2023 · Aug 25, 2023 · Aug 25, 2023
diff --git a/src/deepsparse/transformers/pipelines/text_generation.py b/src/deepsparse/transformers/pipelines/text_generation.py
@@ -435,13 +435,17 @@ def engine_forward(
                 else 100 * self.sequence_length
             )  # set safety for absolute max generation
 
+            # last prompt token is the first generated token
+            # add it to generated tokens, and the logits
             generated_tokens = [tokens[-1]]
             generated_logits = (
-                prompt_logits if context.get("include_prompt_logits") else []
+                prompt_logits
+                if context.get("include_prompt_logits")
+                else [prompt_logits[-1]]
             )
 
             with timer.time(_TextGenerationTimings.TOKEN_GENERATION):
-                while len(generated_tokens) <= max_tokens:
+                while len(generated_tokens) < max_tokens:
                     with timer.time(_TextGenerationTimings.TOKEN_GENERATION_SINGLE):
                         token, logits = self.autoregressive_inference(tokens)
                     tokens.append(token)