[server] Update OpenAI endpoints #1445

dsikka · 2023-11-30T21:30:21Z

Summary

Add the /v1/completions endpoint
Update /v1/chat/completions to accept/handle FastChat-compliant dictionaries

Testing

Using OpenAI API:

from openai import OpenAI


client = OpenAI(base_url="http://localhost:5543/v1", api_key="EMPTY")

models = client.models.list()

model = "hf:neuralmagic/mpt-7b-chat-pruned50-quant"
print(f"Accessing model API '{model}'")


# Completion API
stream = True
completion = client.chat.completions.create(
    messages={"role": "user", "content": "Talk about the Toronto Raptors."},
    stream=stream,
    max_tokens=100,
    model=model,
)

print("Chat results:")
if stream:
    text = ""
    for c in completion:
        print(c)
else:
    print(completion)


stream = True
completion = client.completions.create(
    prompt="How are you today?",
    stream=stream,
    max_tokens=100,
    model=model,
)

print("Completion results:")
if stream:
    text = ""
    for c in completion:
        print(c)
else:
    print(completion)

src/deepsparse/server/openai_server.py

src/deepsparse/server/protocol.py

mgoin · 2023-12-06T21:42:17Z

I ran through the script using hf:neuralmagic/TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds as the model and installing pip install fschat accelerate

Looks like something about the last message handshake went wrong.

client.txt

ChatCompletionChunk(id='cmpl-c735b32f15c043b49893cd6a0ac7ab96', choices=[Choice(delta=ChoiceDelta(content='', function_call=None, role=None, tool_calls=None), finish_reason='length', index=0)], created=1701898636, model='hf:neuralmagic/TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds', object='chat.completion.chunk', system_fingerprint=None)
httpx.RemoteProtocolError: peer closed connection without sending complete message body (incomplete chunked read)

server.txt

  File "/Users/mgoin/code/deepsparse/src/deepsparse/server/openai_server.py", line 159, in abort_request
    await pipeline.abort(request_id)
AttributeError: 'TextGenerationPipeline' object has no attribute 'abort'

dsikka · 2023-12-07T21:27:13Z

I ran through the script using hf:neuralmagic/TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds as the model and installing pip install fschat accelerate

Looks like something about the last message handshake went wrong.

client.txt

ChatCompletionChunk(id='cmpl-c735b32f15c043b49893cd6a0ac7ab96', choices=[Choice(delta=ChoiceDelta(content='', function_call=None, role=None, tool_calls=None), finish_reason='length', index=0)], created=1701898636, model='hf:neuralmagic/TinyLlama-1.1B-Chat-v0.4-pruned50-quant-ds', object='chat.completion.chunk', system_fingerprint=None)
httpx.RemoteProtocolError: peer closed connection without sending complete message body (incomplete chunked read)

server.txt

  File "/Users/mgoin/code/deepsparse/src/deepsparse/server/openai_server.py", line 159, in abort_request
    await pipeline.abort(request_id)
AttributeError: 'TextGenerationPipeline' object has no attribute 'abort'

What script did you use? The example script in the PR description? That seems to work for me. If you send me your code/example, I can investigate.

src/deepsparse/server/openai_server.py

src/deepsparse/server/protocol.py

src/deepsparse/server/openai_server.py

rahul-tuli

LGTM!

dsikka added 5 commits November 28, 2023 23:24

initial commit

b246c79

finish completions endpoint, fix bug

7f7fe68

import clean-up

3ad0842

remove new conversation

7e4c9ca

Merge branch 'main' into server_update

648c20c

dsikka marked this pull request as ready for review December 1, 2023 01:28

dsikka requested review from bfineran, dbogunowicz and mgoin December 1, 2023 01:28

dbogunowicz previously approved these changes Dec 1, 2023

View reviewed changes

src/deepsparse/server/openai_server.py Outdated Show resolved Hide resolved

bfineran reviewed Dec 4, 2023

View reviewed changes

src/deepsparse/server/openai_server.py Outdated Show resolved Hide resolved

src/deepsparse/server/openai_server.py Outdated Show resolved Hide resolved

src/deepsparse/server/openai_server.py Show resolved Hide resolved

src/deepsparse/server/protocol.py Show resolved Hide resolved

update dependencies; update errors

95b017a

dsikka dismissed dbogunowicz’s stale review via 95b017a December 7, 2023 21:57

dsikka added 2 commits December 7, 2023 16:57

Merge branch 'main' into server_update

adcee30

add openai server tests

05378f9

dsikka requested review from bfineran and dbogunowicz December 7, 2023 23:11

rahul-tuli reviewed Dec 8, 2023

View reviewed changes

pr comments

30f1d51

dsikka requested a review from rahul-tuli December 8, 2023 15:58

rahul-tuli reviewed Dec 11, 2023

View reviewed changes

src/deepsparse/server/openai_server.py Outdated Show resolved Hide resolved

src/deepsparse/server/openai_server.py Outdated Show resolved Hide resolved

src/deepsparse/server/openai_server.py Show resolved Hide resolved

dsikka added 2 commits December 12, 2023 04:05

remove old code, add docstrings, remove unused index

69790c0

Merge branch 'main' into server_update

ff0917f

dsikka requested a review from rahul-tuli December 12, 2023 04:10

remove debug print

3e0d491

rahul-tuli previously approved these changes Dec 12, 2023

View reviewed changes

rahul-tuli assigned dsikka Dec 12, 2023

Merge branch 'main' into server_update

a2ef0d1

change pathways

fd5518e

dsikka dismissed rahul-tuli’s stale review via fd5518e December 12, 2023 21:16

rahul-tuli approved these changes Dec 13, 2023

View reviewed changes

Merge branch 'main' into server_update

437a648

bfineran approved these changes Dec 13, 2023

View reviewed changes

dsikka merged commit 3b09d2f into main Dec 13, 2023
13 checks passed

dsikka deleted the server_update branch December 13, 2023 18:29

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[server] Update OpenAI endpoints #1445

[server] Update OpenAI endpoints #1445

dsikka commented Nov 30, 2023 •

edited

Loading

mgoin commented Dec 6, 2023

dsikka commented Dec 7, 2023 •

edited

Loading

rahul-tuli left a comment

[server] Update OpenAI endpoints #1445

[server] Update OpenAI endpoints #1445

Conversation

dsikka commented Nov 30, 2023 • edited Loading

Summary

Testing

mgoin commented Dec 6, 2023

dsikka commented Dec 7, 2023 • edited Loading

rahul-tuli left a comment

Choose a reason for hiding this comment

dsikka commented Nov 30, 2023 •

edited

Loading

dsikka commented Dec 7, 2023 •

edited

Loading