算法的五种描述方法

后端 (46) 2023-09-20 11:12

Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说算法的五种描述方法,希望能够帮助你!!!。

“艺术风格神经算法”的实现

这是 Leon Gatys、Alexander Ecker 和 Matthias Bethge 的论文“艺术风格的神经算法”中描述的方法的 Torch7 实现 ( http://arxiv.org/abs/1508.06576 )。

算法的五种描述方法_https://bianchenghao6.com/blog_后端_第1张

(较长的动画)

依赖关系

  • torch7
  • Imagine-nn(用于 Inception 网络)
  • CUDA 6.5+(除非在 CPU 上运行 - 见下文)

Imagine-nn(以及您缺少的任何其他 Torch 软件包)可以通过 Luarocks 安装:

luarocks install inn

用法

首先,通过运行下载脚本来下载模型:

bash download_models.sh

这将下载 VGG 和 Inception 网络的模型权重。

基本用法:

qlua main.lua --style <style.jpg> --content <content.jpg> --style_factor <factor>

其中style.jpg是提供最终生成图像样式的图像,content.jpg是提供内容的图像。style_factor是一个常数,控制生成的图像强调风格而非内容的程度。默认情况下,它设置为 2E9。

这会使用 Karen Simonyan 和 Andrew Zisserman 的 VGG-19 网络生成图像 ( http://www.robots.ox.ac.uk/~vgg/research/very_deep/ )。

其他选项:

  • model:{起始,vgg}。要使用的 Convnet 模型。Inception是指Google的Inception架构。默认为 VGG。
  • num_iters:优化步骤数。默认值为 500。
  • size:生成图像的长边尺寸。设置为 0 以使用内容图像的大小。默认值为 500。
  • display_interval:图像显示之间的迭代次数。设置为 0 可抑制图像显示。默认值为 20。
  • smoothness:控制生成图像的平滑度的常数(全变差范数正则化强度)。使用 Inception 模型时很有用(设置为 ~5E-3)。默认值为 0。
  • init:{图像,随机}。优化图像的初始化模式。image使用内容图像进行初始化;random用随机高斯噪声初始化。默认为image.
  • backend:{cunn,cudnn}。神经网络 CUDA 后端。cudnn需要CuDNN R3 的Torch 绑定。
  • optimizer:{SGD,LBFGS}。优化算法。lbfgs每次迭代速度较慢并消耗更多内存,但可能会产生更好的结果。默认为lbfgs.
  • cpu:针对 CPU 而不是 GPU 进行优化(仅支持 VGG 模型)。

内存不足?

具有默认 L-BFGS 优化器的 VGG 网络给出了最佳结果。不过,此设置也需要大量 GPU 内存。如果遇到 CUDA 内存不足错误,请尝试使用 Inception 架构或 SGD 优化器运行:

qlua main.lua --style <style.jpg> --content <content.jpg> --model inception --optimizer sgd

您还可以尝试减小生成图像的大小:

qlua main.lua --style <style.jpg> --content <content.jpg> --size 300

如果所有其他方法都失败了(或者如果您没有兼容 CUDA 的 GPU),您可以在 CPU 上进行优化:

qlua main.lua --style <style.jpg> --content <content.jpg> --cpu

例子

爱德华·蒙克《呐喊》风格的埃菲尔铁塔:

算法的五种描述方法_https://bianchenghao6.com/blog_后端_第2张

(较长的动画)

毕加索化的奥巴马:

算法的五种描述方法_https://bianchenghao6.com/blog_后端_第3张

(较长的动画)

实施细节

使用 Inception 网络时,以下层的输出用于优化样式:conv1/7x7_s2, conv2/3x3, inception_3a, inception_3b, inception_4a, inception_4b, inception_4c, inception_4d, inception_4e。

以下层的输出用于优化内容:inception_3a, inception_4a.

默认情况下,优化图像使用内容图像进行初始化;该实现还适用于白噪声初始化,如论文中所述。

为了减少生成图像中的高频“屏蔽门”噪声(特别是在使用 Inception 网络时),应用了全变分正则化(来自cnn-vis by jcjohnson的想法)。

项目地址:https://github.com/kaishengtai/neuralart

今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。