终于有人总结了神经网络模型!

原创 关注最重要的 [AI科技前沿](javascript:void(0)😉 2024年12月25日 12:40 福建

一、神经网络类别

通常,依信息流向是否循环,神经网络模型可划分为前馈与反馈两大类。

1.1 前馈神经网络

信息在输入层启动,逐层传递至输出层,各层神经元仅接收上一级输入,不形成回环。网络无反馈机制,即输出不回溯影响输入层,可用无环有向图建模。

常见神经网络类型有卷积神经网络(CNN)、全连接神经网络(FCN)及生成对抗网络(GAN)。

img

1.2 反馈神经网络

在反馈神经网络中,神经元不仅能接收其他神经元的信号,还能接收自身反馈。相较于前馈神经网络,反馈神经网络神经元具备记忆,状态随时间而异。信息传播在反馈神经网络中可单向或双向,故可用有向循环图或无向图表示。

常见反馈神经网络有循环神经网络(RNN)、长短期记忆网络(LSTM)、Hopfield网络及玻尔兹曼机。

img

二、经典神经网络模型介绍

全连接神经网络(FCN)

全连接神经网络为深度学习的主流架构,包含输入、隐藏和输出三层。每层神经元与前一层所有神经元直接连接。连接信号经权重加权、加偏置后,通过非线性激活函数处理,通过非线性函数的级联,将输入映射到输出空间。

img

卷积神经网络(CNN)

图像高维特性使得标准前馈网络需数千神经元,导致计算量大及维数灾难。卷积神经网络通过卷积和池化层减少维度,其可训练的卷积层参数少,有效提取关键图像信息,最后几层隐藏层处理压缩图像数据。

img

残差网络(ResNet)

随着深层前馈神经网络层数增加,易现退化,训练loss先降后平,甚至增。残差网络通过跳跃连接克服此问题,实现信号跨层传递。

img

生成对抗网络(GAN)

生成对抗网络由鉴别器和生成器构成,前者负责区分真假图像,后者生成难以辨别的逼真图像。二者在竞争中提升,直至生成器能生成高度逼真的图像。鉴别器为卷积神经网络,追求高识别率,生成器为反卷积神经网络,旨在降低鉴别器性能。

img

变分自动编码器(VAE)

自动编码器通过压缩和解压缩输入数据(图像或文本序列)来学习其压缩表示。变分自动编码器更进一步,不仅学习表示数据的函数,还能捕捉数据概率分布的参数,提供更深入的数据视图,并从该分布中生成新的输入样本。

img

Transformer

Transformer为Google Brain提出的关键网络架构,基于Encoder-Decoder模型。图中,Encoder由6个左部Nx单元构成,Decoder由6个右部Nx单元构建。Decoder输出经线性层处理,再通过softmax层计算,输出预测结果。

img

循环神经网络 (RNN)

循环神经网络,简称RNN,因其包含环和自重复特性而得名。它能在网络中存储信息,利用过往训练经验,对即将发生的事件作出更精准的决策,通过将历史预测作为上下文信号。RNN擅长处理序列任务,如文本生成和时间序列预测(如股票价格),并能处理任意长度输入。

img

长短期记忆网络(LSTM)

LSTM专为克服RNN处理长序列时遇到的梯度消失、爆炸难题而构建,内嵌记忆模块。这些模块类似电脑的内存芯片,每个模块由多个循环连接的单元和三个门(输入、输出、遗忘)构成。信息通过门与神经元交互,这些门智能调节,避免梯度问题。

img

Hopfield网络

Hopfield神经网络为单层全互连反馈型网络,神经元兼具输入与输出功能,输出通过权连接传递至所有神经元,同时接收来自其他神经元的输入信息。

img

三、网络结构设计的思考

在实践探索中,我们不仅直接采用经典神经模型进行验证,还时常需对网络架构进行创新与优化。网络架构设计的关键在于解决两大核心问题:

3.1 神经单元应该如何连接?

即设计神经网络架构的基本思路有二:

· 将人类先验融入模型架构,如CNN针对图像任务的平移不变性设计,或RNN基于语言递归特性的构建。依托经验进行网络设计虽高效,但过多复杂经验可能导致设计冗余,且若经验偏差,模型可能失灵。

·

· 利用机器动态学习与计算出的结构,如神经网络架构搜索(NAS),常见搜索策略涵盖随机搜索、贝叶斯优化、进化算法、强化学习及梯度算法。

·

3.2、需要有多少神经元?

神经网络由输入层、隐藏层与输出层构成:

·输入层:数据特征输入层,其神经元数量与数据特征维度一致。

·隐藏层:网络的核心中间层,负责接收上层输出并计算,传递至下一层。其神经元数量影响模型适配度。

输出层:负责输出最终结果的层级,其神经元数量等同于分类类别数。在二分类任务中,sigmoid激活时神经元为1,softmax分类器时与类别数相同。

输入层、输出层的神经元固定,关键在于隐藏层的规模。在避免网络退化的情况下,增加隐藏层神经元的数量,能提升模型的拟合能力。

3.3、神经网络宽度与深度对比,其影响有何不同?

·

1、提升拟合效率,深度增长优于宽度。同等效果下,扩展宽度需比增加深度多。Delalleau与Bengio等在《Shallow vs. Deep sum-product networks》论文中揭示,对于特定多项式函数,浅层网络需指数级神经元增加才能达到深层网络的拟合效果。

·

·

2、在参数规模上,深度扩展所需参数远少于宽度增加。

以图神经网络为例,扩大单层宽度至3个神经元,将新增6个与前后层连接的权重参数。相较之下,直接增加一个含3个神经元的网络层,仅新增3个权重参数。

·3、在功能上,深度层模拟“生成特征”,宽度层则类似“记忆特征”。拓展网络深度可提取更抽象、高级特征,而扩大网络宽度能丰富特征类型。

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

在这里插入图片描述

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。