feat: 讯飞图片模型

2024-11-04 12:31:36 +08:00 · 2024-11-04 12:31:36 +08:00 · ddad340534
commit ddad340534
parent f318f2da40
9 changed files with 240 additions and 4 deletions
--- a/apps/setting/models_provider/base_model_provider.py
+++ b/apps/setting/models_provider/base_model_provider.py
@ -149,6 +149,7 @@ class ModelTypeConst(Enum):
    EMBEDDING = {'code': 'EMBEDDING', 'message': '向量模型'}
    STT = {'code': 'STT', 'message': '语音识别'}
    TTS = {'code': 'TTS', 'message': '语音合成'}
    IMAGE = {'code': 'IMAGE', 'message': '图片理解'}
    RERANKER = {'code': 'RERANKER', 'message': '重排模型'}
--- a/apps/setting/models_provider/impl/base_image.py
+++ b/apps/setting/models_provider/impl/base_image.py
@ -0,0 +1,14 @@
 # coding=utf-8
 from abc import abstractmethod
 from pydantic import BaseModel
 class BaseImage(BaseModel):
    @abstractmethod
    def check_auth(self):
        pass
    @abstractmethod
    def image_understand(self, image_file, text):
        pass
--- a/apps/setting/models_provider/impl/xf_model_provider/credential/image.py
+++ b/apps/setting/models_provider/impl/xf_model_provider/credential/image.py
@ -0,0 +1,46 @@
 # coding=utf-8
 from typing import Dict
 from common import forms
 from common.exception.app_exception import AppApiException
 from common.forms import BaseForm
 from setting.models_provider.base_model_provider import BaseModelCredential, ValidCode
 class XunFeiImageModelCredential(BaseForm, BaseModelCredential):
    spark_api_url = forms.TextInputField('API 域名', required=True, default_value='wss://spark-api.cn-huabei-1.xf-yun.com/v2.1/image')
    spark_app_id = forms.TextInputField('APP ID', required=True)
    spark_api_key = forms.PasswordInputField("API Key", required=True)
    spark_api_secret = forms.PasswordInputField('API Secret', required=True)
    def is_valid(self, model_type: str, model_name, model_credential: Dict[str, object], provider,
                 raise_exception=False):
        model_type_list = provider.get_model_type_list()
        if not any(list(filter(lambda mt: mt.get('value') == model_type, model_type_list))):
            raise AppApiException(ValidCode.valid_error.value, f'{model_type} 模型类型不支持')
        for key in ['spark_api_url', 'spark_app_id', 'spark_api_key', 'spark_api_secret']:
            if key not in model_credential:
                if raise_exception:
                    raise AppApiException(ValidCode.valid_error.value, f'{key} 字段为必填字段')
                else:
                    return False
        try:
            model = provider.get_model(model_type, model_name, model_credential)
            model.check_auth()
        except Exception as e:
            if isinstance(e, AppApiException):
                raise e
            if raise_exception:
                raise AppApiException(ValidCode.valid_error.value, f'校验失败,请检查参数是否正确: {str(e)}')
            else:
                return False
        return True
    def encryption_dict(self, model: Dict[str, object]):
        return {**model, 'spark_api_secret': super().encryption(model.get('spark_api_secret', ''))}
    def get_model_params_setting_form(self, model_name):
        pass
--- a/apps/setting/models_provider/impl/xf_model_provider/model/image.py
+++ b/apps/setting/models_provider/impl/xf_model_provider/model/image.py
@ -0,0 +1,170 @@
 # coding=utf-8
 import asyncio
 import base64
 import datetime
 import hashlib
 import hmac
 import json
 import os
 import ssl
 from datetime import datetime, UTC
 from typing import Dict
 from urllib.parse import urlencode
 from urllib.parse import urlparse
 import websockets
 from setting.models_provider.base_model_provider import MaxKBBaseModel
 from setting.models_provider.impl.base_image import BaseImage
 ssl_context = ssl.SSLContext(ssl.PROTOCOL_TLS_CLIENT)
 ssl_context.check_hostname = False
 ssl_context.verify_mode = ssl.CERT_NONE
 class XFSparkImage(MaxKBBaseModel, BaseImage):
    spark_app_id: str
    spark_api_key: str
    spark_api_secret: str
    spark_api_url: str
    params: dict
    # 初始化
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.spark_api_url = kwargs.get('spark_api_url')
        self.spark_app_id = kwargs.get('spark_app_id')
        self.spark_api_key = kwargs.get('spark_api_key')
        self.spark_api_secret = kwargs.get('spark_api_secret')
        self.params = kwargs.get('params')
    @staticmethod
    def new_instance(model_type, model_name, model_credential: Dict[str, object], **model_kwargs):
        optional_params = {'params': {}}
        for key, value in model_kwargs.items():
            if key not in ['model_id', 'use_local', 'streaming']:
                optional_params['params'][key] = value
        return XFSparkImage(
            spark_app_id=model_credential.get('spark_app_id'),
            spark_api_key=model_credential.get('spark_api_key'),
            spark_api_secret=model_credential.get('spark_api_secret'),
            spark_api_url=model_credential.get('spark_api_url'),
            **optional_params
        )
    def create_url(self):
        url = self.spark_api_url
        host = urlparse(url).hostname
        # 生成RFC1123格式的时间戳
        gmt_format = '%a, %d %b %Y %H:%M:%S GMT'
        date = datetime.now(UTC).strftime(gmt_format)
        # 拼接字符串
        signature_origin = "host: " + host + "\n"
        signature_origin += "date: " + date + "\n"
        signature_origin += "GET " + "/v2.1/image " + "HTTP/1.1"
        # 进行hmac-sha256进行加密
        signature_sha = hmac.new(self.spark_api_secret.encode('utf-8'), signature_origin.encode('utf-8'),
                                 digestmod=hashlib.sha256).digest()
        signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')
        authorization_origin = "api_key=\"%s\", algorithm=\"%s\", headers=\"%s\", signature=\"%s\"" % (
            self.spark_api_key, "hmac-sha256", "host date request-line", signature_sha)
        authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')
        # 将请求的鉴权参数组合为字典
        v = {
            "authorization": authorization,
            "date": date,
            "host": host
        }
        # 拼接鉴权参数，生成url
        url = url + '?' + urlencode(v)
        # print("date: ",date)
        # print("v: ",v)
        # 此处打印出建立连接时候的url,参考本demo的时候可取消上方打印的注释，比对相同参数时生成的url与自己代码生成的url是否一致
        # print('websocket url :', url)
        return url
    def check_auth(self):
        cwd = os.path.dirname(os.path.abspath(__file__))
        with open(f'{cwd}/img_1.png', 'rb') as f:
            self.image_understand(f,"一句话概述这个图片")
    def image_understand(self, image_file, question):
        async def handle():
            async with websockets.connect(self.create_url(), max_size=1000000000, ssl=ssl_context) as ws:
                # 发送 full client request
                await self.send(ws, image_file, question)
                return await self.handle_message(ws)
        return asyncio.run(handle())
    # 收到websocket消息的处理
    @staticmethod
    async def handle_message(ws):
        # print(message)
        answer = ''
        while True:
            res = await ws.recv()
            data = json.loads(res)
            code = data['header']['code']
            if code != 0:
                return f'请求错误: {code}, {data}'
            else:
                choices = data["payload"]["choices"]
                status = choices["status"]
                content = choices["text"][0]["content"]
                # print(content, end="")
                answer += content
                # print(1)
                if status == 2:
                    break
        return answer
    async def send(self, ws, image_file, question):
        text = [
            {"role": "user", "content": str(base64.b64encode(image_file.read()), 'utf-8'), "content_type": "image"},
            {"role": "user", "content": question}
        ]
        data = {
            "header": {
                "app_id": self.spark_app_id
            },
            "parameter": {
                "chat": {
                    "domain": "image",
                    "temperature": 0.5,
                    "top_k": 4,
                    "max_tokens": 2028,
                    "auditing": "default"
                }
            },
            "payload": {
                "message": {
                    "text": text
                }
            }
        }
        d = json.dumps(data)
        await ws.send(d)
    def is_cache_model(self):
        return False
    @staticmethod
    def get_len(text):
        length = 0
        for content in text:
            temp = content["content"]
            leng = len(temp)
            length += leng
        return length
    def check_len(self, text):
        print("text-content-tokens:", self.get_len(text[1:]))
        while (self.get_len(text[1:]) > 8000):
            del text[1]
        return text
--- a/apps/setting/models_provider/impl/xf_model_provider/model/img_1.png
+++ b/apps/setting/models_provider/impl/xf_model_provider/model/img_1.png
--- a/apps/setting/models_provider/impl/xf_model_provider/model/stt.py
+++ b/apps/setting/models_provider/impl/xf_model_provider/model/stt.py
@ -10,7 +10,7 @@ import hmac
 import json
 import logging
 import os
-from datetime import datetime
+from datetime import datetime, UTC
 from typing import Dict
 from urllib.parse import urlencode, urlparse
 import ssl
@ -63,7 +63,7 @@ class XFSparkSpeechToText(MaxKBBaseModel, BaseSpeechToText):
        host = urlparse(url).hostname
        # 生成RFC1123格式的时间戳
        gmt_format = '%a, %d %b %Y %H:%M:%S GMT'
-        date = datetime.utcnow().strftime(gmt_format)
+        date = datetime.now(UTC).strftime(gmt_format)
        # 拼接字符串
        signature_origin = "host: " + host + "\n"
--- a/apps/setting/models_provider/impl/xf_model_provider/model/tts.py
+++ b/apps/setting/models_provider/impl/xf_model_provider/model/tts.py
@ -12,7 +12,7 @@ import hmac
 import json
 import logging
 import os
-from datetime import datetime
+from datetime import datetime, UTC
 from typing import Dict
 from urllib.parse import urlencode, urlparse
 import ssl
@ -67,7 +67,7 @@ class XFSparkTextToSpeech(MaxKBBaseModel, BaseTextToSpeech):
        host = urlparse(url).hostname
        # 生成RFC1123格式的时间戳
        gmt_format = '%a, %d %b %Y %H:%M:%S GMT'
-        date = datetime.utcnow().strftime(gmt_format)
+        date = datetime.now(UTC).strftime(gmt_format)
        # 拼接字符串
        signature_origin = "host: " + host + "\n"
--- a/apps/setting/models_provider/impl/xf_model_provider/xf_model_provider.py
+++ b/apps/setting/models_provider/impl/xf_model_provider/xf_model_provider.py
@ -13,10 +13,12 @@ from common.util.file_util import get_file_content
 from setting.models_provider.base_model_provider import ModelProvideInfo, ModelTypeConst, ModelInfo, IModelProvider, \
    ModelInfoManage
 from setting.models_provider.impl.xf_model_provider.credential.embedding import XFEmbeddingCredential
 from setting.models_provider.impl.xf_model_provider.credential.image import XunFeiImageModelCredential
 from setting.models_provider.impl.xf_model_provider.credential.llm import XunFeiLLMModelCredential
 from setting.models_provider.impl.xf_model_provider.credential.stt import XunFeiSTTModelCredential
 from setting.models_provider.impl.xf_model_provider.credential.tts import XunFeiTTSModelCredential
 from setting.models_provider.impl.xf_model_provider.model.embedding import XFEmbedding
 from setting.models_provider.impl.xf_model_provider.model.image import XFSparkImage
 from setting.models_provider.impl.xf_model_provider.model.llm import XFChatSparkLLM
 from setting.models_provider.impl.xf_model_provider.model.stt import XFSparkSpeechToText
 from setting.models_provider.impl.xf_model_provider.model.tts import XFSparkTextToSpeech
@ -26,6 +28,7 @@ ssl._create_default_https_context = ssl.create_default_context()
 qwen_model_credential = XunFeiLLMModelCredential()
 stt_model_credential = XunFeiSTTModelCredential()
 image_model_credential = XunFeiImageModelCredential()
 tts_model_credential = XunFeiTTSModelCredential()
 embedding_model_credential = XFEmbeddingCredential()
 model_info_list = [
@ -34,6 +37,7 @@ model_info_list = [
    ModelInfo('generalv2', '', ModelTypeConst.LLM, qwen_model_credential, XFChatSparkLLM),
    ModelInfo('iat', '中英文识别', ModelTypeConst.STT, stt_model_credential, XFSparkSpeechToText),
    ModelInfo('tts', '', ModelTypeConst.TTS, tts_model_credential, XFSparkTextToSpeech),
    ModelInfo('image', '', ModelTypeConst.IMAGE, image_model_credential, XFSparkImage),
    ModelInfo('embedding', '', ModelTypeConst.EMBEDDING, embedding_model_credential, XFEmbedding)
 ]
--- a/ui/src/views/template/index.vue
+++ b/ui/src/views/template/index.vue
@ -132,6 +132,7 @@
                <el-option label="重排模型" value="RERANKER" />
                <el-option label="语音识别" value="STT" />
                <el-option label="语音合成" value="TTS" />
                <el-option label="图片理解" value="IMAGE" />
              </el-select>
            </div>
          </div>