Featured image of post

产品上把大模型的缺点规避掉了

错误生成有错误了,参考的文档中设置答案。

准确性患者的问题,

上传题库—生成的内容是虚假的(向量数据库进行检索)——具体的prompt生

最小demo实现!

个人知识库——关键字——对比——

爱好语音输入?文盲,只会说不会写

文字

视频长、大、处理有瓶颈

chatGLM抽取关键词和词频

分析在线/离线视屏解析,文字转写,

在线直播

image-20240812090024911

不断递归式的抽摘要。

十条结果,然后展示,

视屏——文字——关键词+词云图

多模态、想法很重要。

调研优秀项目和协调个人想法。

功能多,产品形态上。

大视频,文本解析的好的方案?

1.whisper

2.加速方案

七分钟用的2080ti显卡,30s解析。

会议视屏长,直播撰写,实时的转写——提升撰写的效果。

最小demo实现!!

核心思路:先堆免费有资源的能力、再做更多稳定性和UI的考虑

一定是一个输入输出的结果。

目前掌握:

task1:智能编程助手

问答最小demo

task3:AI科研助手

上传PDF——解析PDF——拼接摘要Prompt—到大模型—输出给用户:

根据提问——Embedding和Faiss检索chunks——用户请求拼接Prompt—到大模型—结构输出给用户

  • 客户端接收到用户上传的PDF后,发送到服务端。服务端首先完成PDF内容解析,然后拼接摘要Prompt并输入源大模型,得到模型输出结果后,返回给客户端并展示给用户。

  • 如果用户接下来进行提问,客户端将用户请求发送到服务端,服务端进行Embedding和Faiss检索,然后将检索到的chunks与用户请求拼接成Prompt并输入到源大模型,得到模型输出结果后,返回给客户端进行结构化,然后展示给用户。

关键词提取 从论文中提取关键概念和术语,帮助用户快速了解研究重点。 x月x日
论文对比 比较两篇或者多篇论文的内容,总结他们之间的异同点。 x月x日
相关工作推荐 根据用户的兴趣领域推荐相关的最新研究成果。 x月x日
扩展功能:

1.视屏录像摘要,词云图——实时视屏摘要助手

2.导入的文档作为题目,给出正确选项——刷题助手?

3.image-20240812093058529

想法:

Joe-2002/LinChance_GPT: 本项目致力于打造数智化平台级智能人机交互产品,结合智能知识库和知识检索的功能,满足高效运行和优质服务的需求。 (github.com)

算法含量也很高

image-20240812093450360

使用lora微调

交互逻辑

语言模型——十万个为什么——(实体gai)段文本少儿科普内容——打印卡片——版权ying

image-20240812094544091

剧情卡片,多张卡片交互,组合几何级数的。语言模型能为。

传统早教机不可能为每种卡片设置不同的台词——补全每种组合的信息,产生创意性的句子进行学习

实体玩具的识别,注册实体玩具的识别,任意。

版权方面,实体玩具,古生物不容易被拍摄到的。

键盘版的demo

image-20240812095421154

image-20240812100416685

image-20240812100425529

旋转位移放缩,泛化能力

image-20240812100507797

image-20240812100605751

image-20240812100634653

A-B的映射

image-20240812100652516

image-20240812100719687

image-20240812100740252

传统计算机映射——学生掌握的很好。

image-20240812100939895

image-20240812101021367

更强的迁移学习的能力,以前是数据标注

计算机及图形学,NeRF神经辐射场

社会不是随机的,按劳分配

Anki卡片制作,艾宾浩斯遗忘曲线,单词image-20240812101326911

数据分布在二维三维的空间上,

正样本和负样本,线性,

数据是高维空间的数据流行

二维纸的数据,一条线,(判别模型)延展为到三维一个面。

延展的数据一般是错的真实的数据。

生成模型会对样本的分布有更好的认知。

生成模型:

1.采样功能:数据中抽样中抽样出很像的数据

2.判别一个:数据在不在一个分布里。

过往的,例子:

image-20240812101904957

不是

cat cat cat

I play guitar.概率更高

image-20240812101956230

主谓宾

image-20240812102021541

cat eat me

cat teach me

错误的

image-20240812102056731

image-20240812102108740

考虑下一次的概率

统计概率

image-20240812102138068

后面更聪明的模型

image-20240812102159835

隐函数:记忆

lstm rnn

告诉我要开始一个句子

输出一个次

再放入记忆

根据上一次的记忆和字再生成…

最终eos终止符

一层rnn,lstm的模型

多层,正过来反过来,9层十几层的模型。

attention技术,考虑某个词的时候,不止来自前一个记忆,先做判断跟之前的词哪个更相关,

attention+lstm=transforomer

9-12层,

GTP创新、-归一化的层,基础的原理是这样,词是以序列化输入,

4000-8000浮点数

图片生成

英语学习,网站过往的图片和生成的词。

collab工具

想出来的话生成图。

中文模型,clip模型没到。

扩散模型:

随机采样向量和图片对应的,

深度学习后的去噪的能力很强的。

除以信噪比越来越低,反过来深度学习是可以学习的。

噪音还原为原图。

如果我数据是高维空间的高位流行。

通过随机过程拉出diwei流行,Gan对抗生成,

姚期智GAN。

Diffusion背后的CLIP,

Zero-Shot Learning

句子和图编码为特征——图和句子的点乘比较大的。

把类别编码为句子,看图片的句子和句子之间的相似。

是很可怕的。零样本点学习。

黄色香蕉——绿色香蕉,迁移很强的。

深度学习特征和直方图特征有什么不一样?

传统颜色相近的,深度学习是语义相近的。

以图搜图。

最近邻分类。

image-20240812103827765

迁移到另一个领域是非常强的。

Clip模型成功将语言和图片进行关联。

GTP4迁移进去,特征空间人脸编码到表情空间,

表情空间解码为不同的人,实现人脸的驱动。

Clip用了image-20240812104043567

数据集

都能识别出来的。1h筛1000个出来,2-10w张图。

10-100h小时标注,训练工业级。

新时代的工业检测会有很大改变的。

科创评委角度,加入到新的。

cahtgtp和copliot实时演示。初步做实验飞擦汗有效的。

GTP3的时候,openai和github合作,

重构一个东西,

新版信息技术提纲,写了爬虫。

python的爬虫,climper。

摄像机转换,

image-20240812104826552

noit普及组的考试的。

image-20240812104912220

image-20240812105026383

偏上,偏下,偏左,偏右。

image-20240812105223569

长的文本效果不是很好。

单元测试代码,

image-20240812105322588

image-20240812105417498

pygame

image-20240812105510405

pymank

物理

不到2h实现,沟通成本过高,今天这个角度。

新的工具产生, 新的工作流也会实现。

image-20240812105830403

王天一,积分第一的选手。

每周一两次课,每周一两小时。

image-20240812110151019

Openai,第五代编程语言

自然语言去操控编程。

前沿科技,辅助代码

image-20240812110325112

需要能说清楚程序需求和输入输出,程序需求。

关注代码细节。买了接口,整体实现一个应用,分解,分布,核心算法部分研究的,向评委展示。

容易关注代码的细节,人均的实现能力

正面:10个人干更多的事情。

负面:外包,接受外包会有更大的需求。

monk物理的模拟。

image-20240812110650257

标完数据,传统数据流。

colab

普通用户,

Licensed under CC BY-NC-SA 4.0

在漫长的 小时 分钟中
· 写下 17 篇文章、总计 7.16 k 字
· 迎接次不期而遇。