五分钟技术趣谈 | AIGC介绍与应用选型评估

人工智能3年前发布 jimg

文章目录

AIGC（AI-Generated Content，人工智能生产内容），是指利用AI技术自动或协助生成文字、代码、图像、语音、视频、3D物体等各种形式的内容的生产方式。AIGC代表了AI技术发展的新趋势，从感知理解世界到生成创造世界，从分析能力到创作能力。AIGC也带来了内容创作的变革，提高了内容的质量、效率和多样性。 1.1 文本生成文本生成是指利用AI技术，根据给定的输入（如关键词、图片、语音等），自动生成符合语法和逻辑的文本内容，是AIGC的一个重要方面。文本生成的应用场景非常丰富，包括新闻写作、小说创作、营销文案、客服问答、聊天机器人、教育辅导、知识图谱、摘要生成等。文心一言：由百度推出的支持多模态输出的AI大模型，能够进行文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。 ChatGPT：由OpenAI推出基于GPT系列模型的聊天应用，当前已推出GPT-4模型，基于GPT-4模型的ChatGPT可以分析图片并进行文本、图片交互。 1.2 代码生成包括代码补全、代码重构、代码优化、代码注释等，可以覆盖多种编程语言和领域。基于OpenAI的GPT-4模型，甚至可以做到基于手画的一张产品原型草稿图生成对应的网站代码。 Github Copilot：一种基于OpenAI Codex模型开发的AI辅助编程工具，它支持数十种编程语言，可以根据代码或注释，实时地在编辑器中提供代码建议和整个函数，也能通过聊天交互达成结对编程的体验。 Cursor：一个独立的IDE软件，集成了OpenAI的GPT模型。与Github Copilot类似，Cursor可以通过AI写代码、编辑代码和聊天。 1.3 图像生成图像生成是指利用人工智能技术，根据给定的输入（如自然语言、图像、视频等），自动生成符合语义和美感的图像，是AIGC的一个重要方面。图像生成的应用场景非常广泛，包括艺术创作、娱乐媒体、教育培训、电商营销、医疗诊断等。文心一格：由百度推出的AI艺术和创意辅助平台。可以根据文本描述、风格选择，自动生成画作。 DALL-E2：由OpenAI在推出的一种基于自适应多模态编码器的生成模型，它能将多模态输入信息（如文本、图片等）融合，自动生成高质量的图像。 Midjourney：一款2022年3月面世的AI绘画工具，能基于自然语言生成图片，可选择不同画家的艺术风格，还能识别特定镜头或摄影术语。此工具生成的画作在美术比赛中曾获一等奖。 1.4 视频生成视频生成主要分为视频编辑和视频自主生成两种。视频编辑可用于视频超分、修复和剪辑。视频自主生成可用于图像到视频的转换，或给定描述性文字生成相符的视频。下面是一些相关的应用： Deepfake：这是一个基于GAN技术的AI视频生成平台，可以实现换脸、声音转换、表情模仿等功能。用户只需要上传一张图片或者一段视频作为参考，就可以自动生成视频。 Make-A-Video：由Meta公司推出的可以把文本转化为视频的AI系统。它可以根据几个词或几行文本，创造出充满鲜艳色彩、人物和风景的独一无二的视频。 1.5 3D建模基于AIGC的3D建模技术是指利用人工智能技术，根据给定的输入（如自然语言、图像等），自动生成符合语义和美感的3D模型。此领域当前处于较早的探索阶段。以下是一些相关的应用或模型： AICommand：一款基于Unity的开源AI命令插件，可以通过文本描述生成3D场景，并通过文本对3D场景进行调整优化。（https://github.com/keijiro/AICommand） ICON：一个基于人物图片生成3D人物建模的开源AI模型（https://github.com/YuliangXiu/ICON）。可以在线体验并下载生成的3D模型：https://huggingface.co/spaces/Yuliang/ICON
ChatGPT在2022年底由OpenAI推出后，在短短两个月时间内，累计用户就突破一个亿，迅速火遍全球。由此，AI的iPhone时刻到来，各大IT厂商随即快速跟进。以下是截止2023年4月的一些相关应用或模型介绍。文心一言：见上文。 ChatGPT：见上文。 Bard：由谷歌推出的基于LaMDA的轻量级版本的NLP大模型。 New Bing：由微软推出的一款基于GPT4模型的智能搜索引擎，它可以与用户进行自然语言交互，结合实时搜索结果，提供信息、娱乐、创作等多种功能。 ChatGLM：由清华大学推出的基于GLM 架构、开源且支持中英双语的对话大语言模型。可基于CPU进行低成本最小化模型搭建，也可二次开发微调模型。 Poe：由Quora 开发的免费AI聊天机器人应用，应用内集成了包括：ChatGPT、GPT-4在内的6种主流AI聊天机器人。将从以下方面进行测评对比（Poe除外）：自然语言处理逻辑推理代码生成多模态支持 PS：参与测评的ChatGPT基于GPT-3.5模型。参与测评的ChatGLM只是最小化模型：chatglm-6b-int4-qe。实际应用应搭建需求GPU显存的chatglm-6b模型，回答质量会有较大提升。 2.1 自然语言处理测评内容：多轮对话：我们一起来创作儿童故事吧。规则是我先说一句，你再说一句，交替进行。直到我说“故事编完了”就结束。你明白了么？语言理解：我老板说1+1=3，我老板说的都是对的，所以1+1=3，是吗？语言翻译：将这段话翻译成英文：一花独放不是春，百花齐放春满园。情感分析：分析这段话的情感色彩：我非常喜欢这个新的电影，它让我笑了很多次，也让我感动落泪了。 ChatGPT 文心一言 Bard NewBing ChatGLM 得分如下： 2.2 逻辑推理测评内容：在一个架子上有五本书:红皮书、绿皮书、蓝皮书、橙皮书和黄皮书。绿皮书在黄皮书的左边，黄皮书是左数第三本，红皮书是从左数第二本，蓝皮书在最右边，请问这些书的顺序是怎样的? 在一条100米长的直线上有A、B、C三个点，A的位置不确定，A和B之间的距离是5米，A和C之间的距离是10米，B和C之间的距离可能是多少？若2<x<6,1<y<3,则x+y的区间是多少? ChatGPT 文心一言 Bard NewBing ChatGLM 得分如下： 2.3 代码能力测评内容：代码生成：编写一个python函数，接受一个整数作为输入，并判断它是否是回文数。代码解释：解释这行python代码: my_list = [x for x in my_list if x % 2 == 0] Bug检测：这行代码哪里有BUG: my_list = [x for x in my_list if x % 2 = 0] ChatGPT 文心一言 Bard NewBing ChatGLM 得分如下： 2.4 多模态支持多模态支持是指能够处理多种数据类型，如文本、图像、音视频等。例如：通过文本输入，自动基于文本需求生成图片、音视频；通过图片或音视频输入，输出内容摘要文本等。 ChatGPT 基于GPT-3.5模型的ChatGPT并不支持多模态输入及输出能力，基于GPT-4模型的ChatGPT则可以分析图片并分析反馈文本。文心一言文心一言目前可以基于文本描述生成图片、语音。发布会展示了视频生成能力，不过在实际使用过程中，无法生成视频。 Bard Google Bard并不支持多模态能力。 NewBing NewBing的创造力模式下，支持通过文字描述生成图片。 ChatGLM 清华的ChatGLM并不支持多模态能力。得分如下：
结合以上对比得分，再从Demo和生产（商用）两个阶段进行综合评价考虑。测评综合得分如下：选型评估如下：
Demo阶段：以文心一言作为AI首选，NewBing及ChatGPT作为备选AI，ChatGLM作为自研AIGC的探索方向（需要GPU资源配合）。生产商用阶段，多条线路可选：国内大陆区域则以寻求与文心一言进行B端合作的形式进行AI引入；国内港澳台区域则可考虑引入OpenAI的官方GPT-4 API进行AI引入；基于清华ChatGLM模型，搭建并微调研发自主AI。
WebGPU作

五分钟技术趣谈 | AIGC介绍与应用选型评估

AIGC（AI-Generated Content，人工智能生产内容），是指利用AI技术自动或协助生成文字、代码、图像、语音、视频、3D物体等各种形式的内容的生产方式。AIGC代表了AI技术发展的新趋势，从感知理解世界到生成创造世界，从分析能力到创作能力。AIGC也带来了内容创作的变革，提高了内容的质量、效率和多样性。

1.1 文本生成

文本生成是指利用AI技术，根据给定的输入（如关键词、图片、语音等），自动生成符合语法和逻辑的文本内容，是AIGC的一个重要方面。

文本生成的应用场景非常丰富，包括新闻写作、小说创作、营销文案、客服问答、聊天机器人、教育辅导、知识图谱、摘要生成等。

文心一言：由百度推出的支持多模态输出的AI大模型，能够进行文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。

ChatGPT：由OpenAI推出基于GPT系列模型的聊天应用，当前已推出GPT-4模型，基于GPT-4模型的ChatGPT可以分析图片并进行文本、图片交互。

1.2 代码生成

包括代码补全、代码重构、代码优化、代码注释等，可以覆盖多种编程语言和领域。基于OpenAI的GPT-4模型，甚至可以做到基于手画的一张产品原型草稿图生成对应的网站代码。

Github Copilot：一种基于OpenAI Codex模型开发的AI辅助编程工具，它支持数十种编程语言，可以根据代码或注释，实时地在编辑器中提供代码建议和整个函数，也能通过聊天交互达成结对编程的体验。

Cursor：一个独立的IDE软件，集成了OpenAI的GPT模型。与Github Copilot类似，Cursor可以通过AI写代码、编辑代码和聊天。

1.3 图像生成

图像生成是指利用人工智能技术，根据给定的输入（如自然语言、图像、视频等），自动生成符合语义和美感的图像，是AIGC的一个重要方面。图像生成的应用场景非常广泛，包括艺术创作、娱乐媒体、教育培训、电商营销、医疗诊断等。

文心一格：由百度推出的AI艺术和创意辅助平台。可以根据文本描述、风格选择，自动生成画作。

DALL-E2：由OpenAI在推出的一种基于自适应多模态编码器的生成模型，它能将多模态输入信息（如文本、图片等）融合，自动生成高质量的图像。

Midjourney：一款2022年3月面世的AI绘画工具，能基于自然语言生成图片，可选择不同画家的艺术风格，还能识别特定镜头或摄影术语。此工具生成的画作在美术比赛中曾获一等奖。

1.4 视频生成

视频生成主要分为视频编辑和视频自主生成两种。视频编辑可用于视频超分、修复和剪辑。视频自主生成可用于图像到视频的转换，或给定描述性文字生成相符的视频。下面是一些相关的应用：

Deepfake：这是一个基于GAN技术的AI视频生成平台，可以实现换脸、声音转换、表情模仿等功能。用户只需要上传一张图片或者一段视频作为参考，就可以自动生成视频。

Make-A-Video：由Meta公司推出的可以把文本转化为视频的AI系统。它可以根据几个词或几行文本，创造出充满鲜艳色彩、人物和风景的独一无二的视频。

1.5 3D建模

基于AIGC的3D建模技术是指利用人工智能技术，根据给定的输入（如自然语言、图像等），自动生成符合语义和美感的3D模型。此领域当前处于较早的探索阶段。以下是一些相关的应用或模型：

AICommand：一款基于Unity的开源AI命令插件，可以通过文本描述生成3D场景，并通过文本对3D场景进行调整优化。（https://github.com/keijiro/AICommand）

ICON：一个基于人物图片生成3D人物建模的开源AI模型（https://github.com/YuliangXiu/ICON）。可以在线体验并下载生成的3D模型：https://huggingface.co/spaces/Yuliang/ICON

ChatGPT在2022年底由OpenAI推出后，在短短两个月时间内，累计用户就突破一个亿，迅速火遍全球。由此，AI的iPhone时刻到来，各大IT厂商随即快速跟进。以下是截止2023年4月的一些相关应用或模型介绍。

文心一言：见上文。

ChatGPT：见上文。

Bard：由谷歌推出的基于LaMDA的轻量级版本的NLP大模型。

New Bing：由微软推出的一款基于GPT4模型的智能搜索引擎，它可以与用户进行自然语言交互，结合实时搜索结果，提供信息、娱乐、创作等多种功能。

ChatGLM：由清华大学推出的基于GLM 架构、开源且支持中英双语的对话大语言模型。可基于CPU进行低成本最小化模型搭建，也可二次开发微调模型。

Poe：由Quora 开发的免费AI聊天机器人应用，应用内集成了包括：ChatGPT、GPT-4在内的6种主流AI聊天机器人。

将从以下方面进行测评对比（Poe除外）：

自然语言处理

逻辑推理

代码生成

多模态支持

PS：

参与测评的ChatGPT基于GPT-3.5模型。

参与测评的ChatGLM只是最小化模型：chatglm-6b-int4-qe。实际应用应搭建需求GPU显存的chatglm-6b模型，回答质量会有较大提升。

2.1 自然语言处理

测评内容：

多轮对话：我们一起来创作儿童故事吧。规则是我先说一句，你再说一句，交替进行。直到我说“故事编完了”就结束。你明白了么？

语言理解：我老板说1+1=3，我老板说的都是对的，所以1+1=3，是吗？

语言翻译：将这段话翻译成英文：一花独放不是春，百花齐放春满园。

情感分析：分析这段话的情感色彩：我非常喜欢这个新的电影，它让我笑了很多次，也让我感动落泪了。

ChatGPT

文心一言

Bard

NewBing

ChatGLM

得分如下：

2.2 逻辑推理

测评内容：

在一个架子上有五本书:红皮书、绿皮书、蓝皮书、橙皮书和黄皮书。绿皮书在黄皮书的左边，黄皮书是左数第三本，红皮书是从左数第二本，蓝皮书在最右边，请问这些书的顺序是怎样的?

在一条100米长的直线上有A、B、C三个点，A的位置不确定，A和B之间的距离是5米，A和C之间的距离是10米，B和C之间的距离可能是多少？

若2<x<6,1<y<3,则x+y的区间是多少?

ChatGPT

文心一言

Bard

NewBing

ChatGLM

得分如下：

2.3 代码能力

测评内容：

代码生成：编写一个python函数，接受一个整数作为输入，并判断它是否是回文数。

代码解释：解释这行python代码: my_list = [x for x in my_list if x % 2 == 0]

Bug检测：这行代码哪里有BUG: my_list = [x for x in my_list if x % 2 = 0]

ChatGPT

文心一言

Bard

NewBing

ChatGLM

得分如下：

2.4 多模态支持

多模态支持是指能够处理多种数据类型，如文本、图像、音视频等。例如：通过文本输入，自动基于文本需求生成图片、音视频；通过图片或音视频输入，输出内容摘要文本等。

ChatGPT

基于GPT-3.5模型的ChatGPT并不支持多模态输入及输出能力，基于GPT-4模型的ChatGPT则可以分析图片并分析反馈文本。

文心一言

文心一言目前可以基于文本描述生成图片、语音。发布会展示了视频生成能力，不过在实际使用过程中，无法生成视频。

Bard

Google Bard并不支持多模态能力。

NewBing

NewBing的创造力模式下，支持通过文字描述生成图片。

ChatGLM

清华的ChatGLM并不支持多模态能力。

得分如下：

结合以上对比得分，再从Demo和生产（商用）两个阶段进行综合评价考虑。

测评综合得分如下：

选型评估如下：

Demo阶段：以文心一言作为AI首选，NewBing及ChatGPT作为备选AI，ChatGLM作为自研AIGC的探索方向（需要GPU资源配合）。

生产商用阶段，多条线路可选：

国内大陆区域则以寻求与文心一言进行B端合作的形式进行AI引入；

国内港澳台区域则可考虑引入OpenAI的官方GPT-4 API进行AI引入；

基于清华ChatGLM模型，搭建并微调研发自主AI。

WebGPU作

人工智能 # 人工智能

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

人工智能：它如何影响全球经济状况

人工智能：它如何影响全球经济状况

人工智能 # 人工智能

3年前

1260

谷歌更新隐私政策明确在用网上公共数据训练AI

谷歌更新隐私政策明确在用网上公共数据训练AI

人工智能 # 人工智能

3年前

500

人工智能对可持续建筑能源效率影响有多大？

人工智能对可持续建筑能源效率影响有多大？

人工智能 # 人工智能

3年前

280

IDC预计今年人工智能收入将接近4500亿美元

IDC预计今年人工智能收入将接近4500亿美元

人工智能 # 人工智能

3年前

250

小红书
抖音
花瓣
腾讯视频
哔哩哔哩
子比主题
添加应用
折叠Dock
隐藏Dock
网站提交