AI时代的版权新挑战：用AI创作会侵权吗？

在数字创意领域，人工智能（AI）及其在生成型AI上的应用已经开启了一个新时代，挑战着传统的著作权法界限。

与一般认知相反，AI的机器学习过程并不类似于侵权人典型的重制或模仿；相反的，AI的机器学习更像人类学习的过程，是透过对作品的接触，去学习色彩、语言及图案排列的逻辑跟呈现顺序，进而凭借学习成果产出全新、不具与学习素材实质相近的著作。

本文旨在深入探讨AI机器学习的复杂性，并同时阐明其法律含义，并透过引述近期的重要案例来纠正常见的误解。

AI如何生成图片、文字？

生成型AI的基本原理是透过对资料、数据的学习来创造新内容。与著作权侵害典型的态样「散布」、「重制」及「改作」不同，它更多地是从现存著作及数据中进行「学习」。

图像生成

1. 数据分析与模式学习：用于图像创作的生成型AI，首先透过分析大量图像数据开始。

这包括识别图像中的物体，还要理解笔触纹理、色彩渐变、光照及空间关系等更深层次的元素。举例而言，一个成熟的生成是AI在学习风景画时，会于识别不同的元素后，如笔触、色彩混合技术以及光影的交互作用，应用这些元素于产出之作品中。

2. 特征提取： AI演算法中的卷积神经网路（convolutional neural network），可以藉由图像作品特定特征之提取，进而达到识别、并分离图像各种特征，如边缘、形状和纹理之效果。而「特征提取」对于AI机器人理解不同艺术作品之风格、笔触及画技至关重要。

3. 全新作品之生成：一旦AI透过特征提取、数据分析学会了特定技巧及艺术风格，它就可以生成新图像。

这通常是使用生成对抗网络（Generative Adversarial Network，GANs）来完成的。GANs包括图像生成器及图像鉴别器，透过生成器及鉴别器之交互作用及迭代之过程，生成式AI最终会制作出风格、特征上接近训练数据之图像（通常是指控侵权著作），但在实际比对却与训练数据之图像无实质近似性。

文本生成

1. 数据获取与语言模型建立：对于文本生成，像ChatGPT这样的AI模型吸收大量文本数据，包括但不限于书籍、文章、网站内容，甚至是对话纪录等广泛来源。AI藉由文本数据构建出一个能理解语法和推论出上下文的语言模型。

2. 语言预测：文本生成式AI中，最普遍的语言预测模型是n-gram，它会计算「特定词或短语」后接续词语的概率，进而达到惯用语表达、叙事结构和主、受词之一致之目的。然而，语言预测模型n-gram常见于文法、拼写检查，但难以处理较复杂的文本生成。

3. 编码及文本理解：对于上下文延伸以及整篇文本生成之复杂任务，n-gram模型就显得力不从心，这是因为它只能从有限的上下文信息进行预测，而非理解文本之语意。

相反地，Transformer模型透过自注意力机制（Self-Attention）将文本中的文字转换成向量（Input Embedding），再透过位置编码（Positional Encoding）加入文字顺序信息，来达到整份文本脉络之全面理解。

4. 文本生成：透过编码器（Encoder）对文本进行深度理解后，解码器（Decoder）则负责根据学到的文本特征进行文本生成。

这过程中，即使文字间长距离依赖关系可以被有效捕捉。上述Transformer模型的特性，让它得以生成前后连贯，而且具有创造性的文本。这种生成过程不仅基于对原文本深层次语意的理解，而且能够在深度学习后创造出在文义上符合逻辑、在内容上具备原创性的文本。。

AI生成与版权侵犯差在哪？

从前述图片及文本生成的原理可以知道，AI生成内容的方式与著作权法里所规定的侵权态样大相径庭，从以下几点观察尤其明显：

1. AI中的创造性本质：生成型AI显然不是不简单地将其学习的资料（现有作品）进行「复制」或「再现」。

反之，它是从大量数据及资料中学习文本的底层逻辑、文章结构及风格，综合这些元素后，来创造具备新颖信的著作。例如，在图像生成中，尽管AI可能从现有的艺术作品中学习，但产生的最终图像绝对不是复制自认和现存的著作，而是将深层学习的成果进行重组、转译而生的新创作。

2. 法律解释：从法律角度来看，AI生成内容与人类复制之间的区别是显著的。著作权法的基础概念是「仅保护想法之表达，而非想法、观念或系统本身」。

由上述可知，AI生成的作品是从训练数据（原作品）中学习底层逻辑、文章结构、图像作品之作画风格、笔触等想法及观念，而绝对不是去「再现」或「重置」训练数据（原作品）之表达。

AI生成作品的方式显然挑战传统著作权侵犯的界限。像「Andersen v. Stability AI Ltd」此代表性的案例中，诉讼上法律的攻防重点就是在Stable Diffusion生成之图片不构成侵权之情况下，它使用受版权保护的图像来训练AI是否构成侵权。

3. 转化与合理使用：从AI生成之作品来讨论是否构成侵权，则会去讨论到生成作品具备足够之转化性——这代表生成式AI在原作的基础上增添额外的表达，甚至赋予新的意义，这时候就要讨论是否有构成「合理使用」之可能。

这取决于AI创造出与原作显著不同作品的能力。目前DALL-E就是为了比免这样的法律争端，所以全面禁止以提供以AI在原作品上进行改作的功能。

利用AI对现存著作进行改作的争议再进起打到高峰，近期风靡全球的「帕鲁世界」，就是利用生成式AI，将多只宝可梦进行改作，甚至是多只宝可梦的融合。针对文本生成上，Thomson Reuters v. Ross Intelligence案之审查中，双方对于AI所生成的法律问件事构成合理使用的争点有深入的讨论，并做出肯定「合理使用」之结论。