大火的AIGC是什么?能用到工作中哪些地方?
AIGC(即Artificial Intelligence Generated Content),中文译为人工智能生成内容。简单来说,就是以前本来需要人类用思考和创造力才能完成的工作,现在可以利用人工智能技术来替代我们完成。
在狭义上,AIGC是指利用AI自动生成内容的生产方式,比如自动写作、自动设计等。在广义上,AIGC是指像人类一样具备生成创造能力的AI技术,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据。
二.AIGC发展历史AIGC的发展历程可以分成三个阶段:早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)。
在早期萌芽阶段(1950s~1990s)
由于技术限制,AIGC仅限于小范围实验和应用,例如1957年出现了首支电脑创作的音乐作品《依利亚克组曲(Illiac Suite)》。然而在80年代末至90年代中期,由于高成本和难以商业化,AIGC的资本投入有限,因此未能取得许多显著进展。
在沉淀累积阶段(1990s~2010s)
AIGC逐渐从实验性转向实用性,2006年深度学习算法取得进展,同时GPU和CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供了海量数据进行训练。2007年出版了首部由AIGC创作的小说《在路上》(I The Road),2012年微软展示了全自动同声传译系统,主要基于深度神经网络(DNN),自动将英文讲话内容通过语音识别等技术生成中文。
在快速发展阶段(2010s~至今)
2014年深度学习算法“生成式对抗网络”(Generative Adversarial Network, GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA (英伟达)发布StyleGAN模型可自动生成图片,2023年DeepMind发布DVD-GAN模型可生成连续视频。2023年Open AI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。
2023年AIGC入世元年
而2023年更像是AIGC入世元年,AIGC相关的话题爆炸式的出现在了朋友圈、微博、抖音等社交媒体,正式被大众所关注。其中令人印象深刻的是微软全系融入AI创作和OpenAI GPT-4的发布:
2023年1月,微软必应搜索(Microsoft Bing Search)推出了一项创新的功能,即聊天模式(Chat Mode)。这项功能允许用户通过聊天框与必应搜索进行交互,获取信息、娱乐、创意等各种内容。必应搜索利用了先进的自然语言处理(NLP)和生成技术,能够理解和回答用户的各种问题和请求,同时提供相关的网页搜索结果、建议、广告等。必应搜索还能够根据用户的选择,切换不同的模式,如平衡模式(Balanced Mode)、创意模式(Creative Mode)和精确模式(Precise Mode),以满足用户的不同需求和偏好。必应搜索的聊天模式是AIGC领域的一个突破,展示了人工智能与人类交流的可能性和潜力。
三.AIGC核心技术随着自然语言处理(NLP)技术和扩散模型(Diffusion Model)的发展,人工智能已经不再仅仅作为内容创造的辅助工具,而是可以创造生成内容。
自然语言处理技术是实现人与计算机之间如何通过自然语言进行交互的手段。它融合了语言学、计算机学和数学,使得计算机可以理解自然语言,提取信息并自动翻译、分析和处理。在自然语言处理技术发展之前,人类只能通过一些固定模式的指令来与计算机进行沟通,这对于人工智能的发展是一个重大的突破。
自然语言处理技术最早可以追溯到 1950 年,当时图灵发表了一篇论文,提出了「图灵测试」的概念作为判断智能的条件。这一测试包含了自动语意翻译和自然语言生成。自然语言处理技术可以分为两个核心任务:自动语音识别和自然语言生成。自动语音识别是将语音信号转换为文字,而自然语言生成则是将结构化数据转换为自然语言文本。
随着 AI 技术的不断发展,人工智能已经可以通过自然语言处理技术和扩散模型(Diffusion Model)来生成自然语言文本,这使得人工智能不再仅仅作为内容创造的辅助工具,而是可以创造生成内容。这种生成式人工智能可以用于自然语言问答、机器翻译、自然语言摘要、聊天机器人等多个领域,为人们提供更加智能化的服务和体验。
总之,随着自然语言处理技术和扩散模型的发展,人工智能已经可以创造生成自然语言文本,这将会给我们的生活和工作带来巨大的变革。
自然语言理解 NLU:希望计算机能够和人一样,具备正常人的语言理解能力。过去,计算机只能处理结构化的数据,NLU 使得计算机能够识别和提取语言中的意图来实现对于自然语言的理解。由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。
自然语言理解跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。
自然语言生成 (NLG) 是将非语言格式的数据转换成人类可以理解的语言格式的技术。该技术经历了三个阶段的发展,从早期的简单的数据合并到模板驱动模式再到现在的高级 NLG。通过这些发展,计算机能够像人类一样理解意图,考虑上下文,并将结果呈现在用户可以轻松阅读和理解的叙述中。
NLG 可以分为六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。其中,内容确定是 NLG 的第一步,需要确定要生成的语言内容。文本结构是第二步,将内容转换成结构化的文本。句子聚合是第三步,根据文本结构生成句子。语法化是第四步,根据上下文规则对句子进行语法处理。参考表达式生成是第五步,根据生成的上下文信息生成参考表达式。最后,语言实现是第六步,将参考表达式转换成特定语言的表达式。
自然语言生成主要被应用在四个方面:情感分析、聊天机器人、语音识别和机器翻译。情感分析可以快速了解用户的舆情情况。聊天机器人可以帮助用户进行日常交流。语音识别可以提高交互的便利性,例如在微信中进行语音输入或将语音转换为文字。机器翻译可以提高跨语言交流的效率,使得不同语言之间的交流更加便捷。
总之,自然语言生成是一项非常有用的技术,可以帮助人们更加便捷地进行交流和处理信息。通过 NLG 技术,计算机可以将非语言格式的数据转换成人类可以理解的语言格式,从而实现更加高效的信息处理和交流。
微软Apache Spark
商业上,NLP 主要被应用在一下领域:
用于处理财务、医疗保健、零售、政府和其他部门手写或机器建立档案
文字处理工作,如:名称实体辨识(NER)、分类、摘要和关联撷取。这能将撷取、识别和分析文档资讯的流程自动化。
语意搜寻和资讯撷取和知识图表建立
跨零售、财务、旅游和其他产业客户的交互 AI 系统等。
神经网络,尤其是循环神经网络 (RNN) 是当前 NLP 的主要方法的核心。其中,2017 年由 Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。
Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外,也被用于计算机视觉领域。与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许