技术架构
更新时间:2024-2-18
介绍
大语言模型(LLM) 在语言理解和生成方面有了很大的突破,它们能够理解人类语言的复杂性,从而执行诸如语言翻译、文本摘要、问题回答等任务,甚至让人有了它是否诞生了意识的错觉。
而然它们在与人类交互上仍然存在一些不足之处,Text To Text
的文本交互适合在效率场景
,然而更多的场景还需要通过扩展交互
方式来展开。
愿景
我们希望通过交互方式上的扩展,使得 LLM 能落地更多的场景。考虑到离线部署和产品的长期运营维护,包括在 TTS、ASR 等环节我们没有采用 PaaS 服务,而是通过基于开源产品自研的技术实现。
技术架构图
以下是我们总体的技术架构图
更多详细内容后续补充... Coming soon
参考
相关技术
- TTS (Text-to-Speech):将文本转换为语音的技术。
- NLP (Natural Language Processing):用于理解、解释和操作人类语言的技术。
- NLU (Natural Language Understanding):NLP的一个分支,专注于机器理解和解释人类语言。
- WebRTC (Web Real-Time Communication):允许网页之间进行直接通信的技术,支持视频、音频和一般数据的传输。
- Audio2Lip:通过音频信号驱动,生成与之匹配的唇部动画。
- Txt2Lip:将文本直接转换成匹配的唇部动画的技术,用于创建逼真的说话者视频。
- RAG (Retrieval-Augmented Generation):结合了信息检索和文本生成的NLP技术,用于提高回答质量和相关性。
- Vector Database:用于存储和检索向量数据(如嵌入式向量)的数据库,常用于搜索和推荐系统中。
- Sentiment Analysis:分析文本情感倾向的技术,用于判断文本表达的是正面、负面还是中性情绪。
- Object Detection:一用于识别图像中的对象并给出其位置。
- Image Classification:图像分类技术通过分析图像内容将其分配给一个或多个类别。
- Semantic Segmentation:用于将图像分割成多个部分,并将每个部分标记为具有特定意义的类别。
- Dialogue Generation:使用人工智能生成自然语言对话的过程,常见于聊天机器人和虚拟助手中。
- Knowledge Graphs:结构化的知识库,用图形的方式存储数据和关系,广泛用于支持复杂的查询和数据分析。