讯飞星火大模型 V4.0 体验:全面进化,体验不输 GPT-4o

2024-07-05 www.dnxtw.com

在 6 月 27 日举行的讯飞星火 V4.0 在发布会上,科大讯飞发布讯飞星火大模型 V4.0,及其在医学、文化教育、商业服务等多个领域的人工智能技术。

讯飞星火大模型 V4.0 根据国内首个国内万卡算率集群式“飞星一号”练习成的,全面提升了大模型底座的七大核心竞争力。总体超过 GPT-4 Turbo,尤其是针对繁杂命令、繁杂逻辑判断、室内空间逻辑推理、数学课、根据逻辑顺序的多模光纤了解等方面有着显著的提升。

20240703142006

与此同时科大讯飞也带来了全新升级的讯飞星火 App / Desk,公布“私人空间”,打造出每一个人 AI 小助手。

为了能进一步了解讯飞星火大模型 V4.0 的具体体验,电脑系统网也对其做了一番体验实测,现在就为大家送上体验汇报。

一、讯飞星火 App / Desk 功能升级

伴随着讯飞星火大模型 V4.0 来临,星火 App / Desk 即将迎来功能升级。先用讯飞星火 Desk 为例子,进到主页面,能够看见原素更丰富,左上方得多“建立智能体”的功效通道,左边栏也有一个新的“智能体核心”,右边得多“私人空间”页面。

微信图片编辑_20240704214404

点击左下角的头像可打开“我”标识,的底部中间文本框则可进行交流。

20240703142237

App 端页面也有大转变,底端成了“会话”、“智能体”、“室内空间”、“本人”四个菜单栏,每一个菜单栏相对应的作用页面也不尽相同,更丰富。

20240703143030

1、会话作用

在“会话”功能中,增强了长文本互动问答能力,点一下提示框右边的上传图片按钮即可上传文件进行交流。

20240703143201

电脑系统在网上传了一份关于通信产业标准化协会相关扩展现实产业调查研究报告,使它帮助开展引言,它果真很快就可以得出精确的引言,和文本文档自身主要内容都是贴合的。

20240703143402

随后小编还对于word里的一些内容对讯飞星火 V4.0 进行提问,例如我问它“word里对 MR 的概念是什么?”它也提出了准确的答案,对比文本文档中的相关表述,回应得没问题。

20240703143446

点一下会话页面上方的返回按钮,就能进入会话目录页面,你建立的对谈都能在这里表明,也可以进行顶帖删除。

20240703143530

根据上方的收藏功能,也可以用关键字搜索有关的智能体、“我的qq空间”里的文本文档及其待办事宜等相关信息。

8acda730f221fff665c040883c37acee-side

2、智能体

伴随着生成式 AI 的高速发展,智能体将会成为大模型在运用方面的重要领域。所以目前,讯飞星火免费了超出 16000 智能体,遮盖初入职场、日常生活、写作等全场景,打造出开箱即用大模型运用。

面对技术专业竖直情景,讯飞星火 App / Desk 现在第一批发布 14 个智能体,包含讯飞晓医、晓知、星火合同书小助手、讯飞智作、讯飞智文等。

20240703144356

以配备讯飞星火诊疗大模型的“讯飞晓医”为例子,它能够为您提供症状自查、药品查看、辨证论治、报告解读、医院部门强烈推荐及其饮食指导等服务。

例如在报告解读中,我挑选一份血常规检测报告中的2个出现异常指标值,让讯飞星火 V4.0 作出判断,分别为“红细胞压积微 50.80”和“血细胞 6.01(10^12 / L)”,讯飞星火 V4.0 给的判定和原先检验报告给的分辨是一样的,而且还给出了可能导致指标值异常缘故。

20240703144518

日常日常生活,在我们吃药时经常遇到“不知道这个二种药能不能一起吃”的烦恼,专业因此去咨询医生也比较麻烦,这时就可以用“讯飞晓医”的照相功能,与此同时拍下来2个药品盒,“讯飞晓医”便会结合自己的专业技能告诉你这俩药能否一起吃。

这里小编用自己以前起带状性疱疹时医生开的二种药来对它进行检测,与此同时拍下来2个药品盒,当小编说出手臂起疱疹时,“讯飞晓医”分析判断为带状性疱疹,随后提出了带状疱疹的有关科谱及其服药提议,在用药提议里能见到这俩药能够一起吃,这跟医生给得到的结果也是一样的。

20240703144624

除开拍药物,你也可以把你的体检报告单上传照片,让“讯飞晓医”来帮你分析,例如小编会自己过去所做的肝脏脾脏超声波体检单照相让“讯飞晓医”来说,它提出了详细的分析结论,在其中尤其是肝脏的剖析是非常精确的,有轻微的轻度脂肪肝。

但是小编还是要提醒大家留意,最终结果与治疗放纵还是得听专业的医生建议。讯飞晓医关键给大家提供有价值的健康科普信息内容。

20240703144729

再检测一个比较实用的智能体:星火合同书小助手,它支持合同书智审、合同书形成、合同书核对和合同概述等服务,这儿以合同智审为例子,我根据上传照片一份驾校陪练签订的合同,根据 AI 鉴别,讯飞合同书小助手取得成功给我辨别出协议中相关培训时长进度计划、花费跳关、考试费、电子路考培训费、教练资质证书、合同违约责任等方面安全风险,这些点大家在签订合同时极有可能考虑到不上,因此有了星火合同书小助手,显而易见可以帮我们有效规避潜在的风险。

20240703145625

3、私人空间和人设标签作用体验

以往有时候我们应用 AI 大模型商品输出得出的结论全是公开的信息,但对于我们个人的数据,这些公开发布大模型就束手无策。但其实无论是学习培训、工作还是生活,大家通常需要大模型能更了解我们个人的需要,有一个属于我个人知识库系统,全新升级的讯飞星火也考虑到这一点,特别推出了“私人空间”的功效。

“私人空间”就相当于为用户打造专属公域知识库系统,根据提交本人文本文档,让大模型开展更精确的知识答题与内容形成;同时通过人设标签、日程管理方法、信息内容定阅、建立发音人,为消费者提供更加个性化和趣味性化的服务。

在私人空间里,上传文本文档默认设置会按照时间顺序开展排序,那你也可以切换到不一样文件分类的内容下查看。

20240703145839

选择对应的一个或多个文档,你就能针对该挑中文档翻译成中文、汇总、了解、剖析或是其他形式的互动问答,

20240703145956

例如我晒出了自身手机里面有关近期日程分配待办事宜截图,选择这个截屏,点一下“大量互动问答”,即可进入会话页面,随后我了解“我将来几日有什么安排”?讯飞星火就可清晰地把我未来几天必须完成的事情一一列举,还是很精确,跟着小编原先在手机里设置的一样。

20240703150128

又比如我晒出了一份以往某一 10 月份他们所写的东西统计分析 EXCEL 报表,选定然后点击“Excel”剖析选择项,进到会话页面,我第一问它“我一个月写是多少一篇文章”,它清晰地回应出 21 一篇文章。随后我再问它“自己写的全部文章内容一共有多少字”,它则提出了 50563 个词。我算了一下,也是合理的。

20240703152127

此外,在小编私人空间中还有好几篇和新能源车“三电”系统有关的券商报告材料,测试时,我同时选择 5 个材料文本文档,让讯飞星火依据这 5 个材料文档写一篇关于详细介绍新能源车“三电”系统的帖子,文章必须包括:

(1)什么叫新能源汽车“三电”系统。

(2)新能源汽车“三电”系统分别有什么技术类别?

(3)在我国在新能源“三电”系统层面的发展状况。

20240704164217

能够看见,讯飞星火一样马上就得出了一篇短文,小短文词义顺畅,规定的内容都包含在内了,构造也非常清晰,不过整体稍显模式化,用来使用的时候能够稍做改动。

同时在原文中,讯飞星火 V4.0 还给出了引入信息的来源标明,某一段话是来自于材料的那一部分,都是有由来表明,让内容更为合情合理,降低了大模型错觉的现象。

除开私人空间,讯飞星火 App / Desk 如今也可以通过人设标签,日程管理方法、信息内容定阅、建立发音人等,产生更加个性化和趣味性化的服务。

以 App 为例子,在“我”频道里,如今能设自已的人设标签,选中某一人设标签后,大模型根据你的标识提供个性化的内容与回应。

20240703153722

例如我在未设定一切标识的情形下,让讯飞星火写一篇讨论什么叫最有意义的人生的小短文,之后在设置里把自己的人设设置为“旁征博引,文化底蕴”,随后相同的规定再叫讯飞星火写一篇。比照几篇小短文:

20240703153703

20240703153650

能够看见,在设定“旁征博引,文化底蕴”标签后,讯飞星火输出小短文的确加入许多至理名言历史典故,包含《孟子・告子下》、《论语・阳货》、《论语・述而》等。

总的来说,全新升级的讯飞星火 App / Desk 作用更加强大、更加丰富,但互动合理布局中并没有看起来杂乱,不论是星火 App 或是星火 Desk 各种功能等级都井然有序、清楚,并且丰富多样的智能体的加持让讯飞星火更好用、更高级,私人空间及其个人标签等个性化功能性,也让讯飞星火可以成为最懂你大模型 AI 小助手。

二、讯飞星火大模型 V4.0 通用技能体验

如同前文所说,此次讯飞星火 V4.0 在通用技能层面全面提升了大模型底座的七大核心竞争力,尤其是针对繁杂命令、繁杂逻辑判断、室内空间逻辑推理、数学课、根据逻辑顺序的多模光纤了解等方面有着显著的提升。另外在跨模态能力方面也获得了再升级。

这儿电脑系统网也针对这种通用技能进行了体验检测,测试过程中我用 GPT-4o 来进行比较,供大家对讯飞星火 V4.0 的体验有深层次的认识。

1、视频理解水平体验

讯飞星火 V4.0 在跨模态能力方面现在已经能够支持短视频的解读、逻辑思维能力,在测试时,电脑系统在网上传了一段先前公布完的电视节目,来使他展开分析。这个视频讲的是 2023 年苹果公司 WWDC 迅速回望内容,我让讯飞星火 V4.0 概述一下视频具体内容,它回应很准确,详细提出了短视频的主要内容。

20240702104603

而 GPT-4o 目前还不适用视频采集的功效,类似的问题让 GPT-4o 来回应,会有“无法处理”的数据。

20240702132206

或是对于这个视频,我再问了几个问题,分别为短视频的作者是谁,及其创作者从何而来,讯飞星火 V4.0 的答案也是完全的正确。

20240702134547

随后我再问视频up主是怎么看待苹果公司 Vision Pro 该产品的?讯飞星火 V4.0 也提出了恰当的答案,说明它确实在了解这一段视频的内容。

20240702153137

2、图文并茂能力测评

除开视频理解水平,图文并茂能力是大家使用大模型较多的作用。这儿电脑系统网最先调查照片逻辑思维能力。

小编先提交一张网络搞笑图片,一只小狗戴上迪迦奥特曼的面罩,问讯飞星火 V4.0 这个图片的笑点在哪里。讯飞星火 V4.0 精确剖析出图形的笑料。

20240702154526

然后问 GPT-4o,它回应和讯飞星火 V4.0 类似,也精确阐述了图形的笑料。

20240702154514

然后电脑系统网用一道几何证明题来磨练讯飞星火 V4.0:

20240702171230

提交这个图片,直接把讯飞星火 V4.0 展开作答,能够看见,它回答是正确,做题的全过程也没有什么问题。

20240702171554

再叫 GPT-4o 来解答一下这题,然后就有点不对劲了,尽管最终答案是合理的,但 GPT-4o 导出的内容中有 2/3 都是错误的解题过程,自我探索后又再次梳理思路,最终导出标准答案中所用的中位线定理也是不对的。

iShot_2024-07-02_17.18.47

再看一遍文生图的水平,这是目前大部分人都会需要用到的作用。我首要让讯飞星火 V4.0 画一张赛博朋克风的闹市区街边,它产生的照片或是很形象的:

20240704164807

随后我使它换为中国风的设计风格,给的照片也非常不错,非常好的彰显了古代风格的闹市区,界面精美清楚、符合规定。

20240704164835

再看一遍 GPT-4o,产生的照片也很漂亮。

20240702174101

或是使它换为中国风的设计风格,界面整体设计和上一张差别不大,里边多了一些中国风建筑元素。

20240704165109

3、逻辑分析能力检测

逻辑分析能力是这次讯飞星火 V4.0 的一大更新看头,测试时电脑系统网也主要考察了讯飞星火 V4.0 在逻辑思维能力上的表现。

关键在于日常生活常识推理层面,我问了一个难题:

1991 年 1 月 25 日至 2024 年 3 月 2 日一共多少天(头尾都算是)

讯飞星火 V4.0 提出了详尽的运算流程,我看了一下,构思非常清晰,结果显示 12091 天,恰当。

未命名 3

而类似的问题,应用 GPT-4o 来计算,它直接告诉了我们,也是合理的。我再次询问测算的流程,想不到 GPT-4o 在计算流程里给一段 Python 代码,算得上不完美。

未命名

然后我问了一个对逻辑思维能力要求比较高一些的题:

假设有一个池塘,里有无限多的是水,目前2个空茶壶,容量分别为 5 升与 6 升。问怎样用这俩茶壶从小河里获得 3 升水?

关于这个问题讯飞星火 V4.0 的答案流程清楚,逻辑清楚,具体可执行性也没问题。

20240702215552

GPT-4o 层面,逻辑思维能力还挺清晰,具体可执行性也没问题,但是产生的回答反复,表明的句子比较多,流程也略繁杂些,可以说是不完美吧。

未命名 2

之后我又问了一个逻辑推理想到类题型:

找出规律:1=2,2=6,3=12,4=?

关于这个问题,讯飞星火 V4.0 提出了详尽的探索流程,还给出了规律性的公式,结论自然也是合理的。

20240702220358

GPT-4o 层面给的思索步骤和回答没什么问题:

未命名 4

4、数学课能力测评

前面我们测试过2款大模型的逻辑分析能力,与之相一样还有另外数学答题能力,能够更进一步检验大模型的“智商水平”。测试时,大家直接用在今年的全国高考卷的考试真题。

例如这一题:

数学题1

这是一道函数公式立体几何的题,讯飞星火 V4.0 取得成功作出了回应,我看了一下回答,是合理的。

20240702221501

对于 GPT-4o,一顿操作猛如虎,一看题目没计算。

未命名 5

接着往下看难以一点的单项选择题最后一题:

20240702222423

讯飞星火 V4.0 得出的结论很简洁,虽然小编残余的数学思想方法很少,但是看解题过程,还是没问题的,最终的结局也是合理的。

20240703093439

GPT-4o 此次也提出了正确答案,但是解题过程略显繁杂,有一些流程没有太大的必需。

未命名 6

5、语言逻辑能力测评

在英语逻辑思维能力层面,电脑系统网主要考查大模型的文本信息抽取水平、文本分析水平、翻译水平和分歧逻辑思维能力。

最先文字信息抽取能力水平,我选择了电脑系统网此前发布的几篇新闻报道开展句式杂糅,让大模型从这当中提取信息,难题如下所示:

20240703094534

首先看讯飞星火 V4.0 的答案,第四个问题的回答全是精确的,最后一个问题必须绕个弯,讯飞星火 V4.0 已经知道 5 月和 1-5 月的出口数据,就差做差这一步。

20240703094713

GPT-4o 的答案其实也是第四个提问回答的很精确,但第三个问题立即输出了不正确的回答。

20240703095004

接着往下看文本分析水平,今天小编就来抽取了 2022 年江苏连云港定稿语文卷的一道阅读理解题目,题型如下所示:

未命名 7

针对这几个问题,讯飞星火 V4.0 各自告诉了我们。电脑系统网将讯飞星火 V4.0 的答案和正确答案做核对,尽管语言表达能力上面有进出,但总体含意是没有问题的,正确答案过程中需要反映一个点讯飞星火 V4.0 在回答之中覆盖到了。

20240703102656

GPT-4o 给的回应没什么问题,对文章作者的情绪掌握也是非常精确的,第二题的答案相对而言更有逻辑性一些。

20240703102809

翻译水平层面,电脑系统网从外国媒体 tomshardware 找来一段媒体的段解,在其中有很多高新科技专业名词,磨练2款大模型的翻译水平:

20240703104531

讯飞星火 V4.0 翻译总体来说语言表达通畅顺畅,含意都比较清楚明晰,这其中的专业术语并没有错翻、漏翻。

20240703104049

GPT-4o 这里翻译效果也不错,和讯飞星火 V4.0 类似。

最后就是语言表达分歧的理解能力,电脑系统网找来一句很有可能产生误解的语句让大模型来分析:

剖析并修改下边这话中会产生误解问题:

县里的通告说,让赵乡镇长本月 15 日前往签到。

讯飞星火 V4.0 精确剖析出垂直居中可能出现分歧的主要原因,取决于时长描述不太清楚,给的二种修改方案都可以让语句并没有分歧。

20240703104944

GPT-4o 对这句话分歧问题原因分析就出现了偏差,改动的结论也没有错,有点儿不明就里。

20240703105021

6、具体内容形成能力测评

具体内容形成有可能是大伙儿应用大模型最常见的作用,用于协助大家进行一些文案创作。这里小编还对2款大模型进行了测试。

最先小编想让她们帮我写一篇招聘文案:

任职要求: 有金融学专业环境,有文化传媒方位工作经历,文采出色,可以接受跑业务。

招聘待遇: 有五险一金,月薪 15K 起,办公环境新适雅致,节假日日也有礼物,一年一次旅行团建。

创意文案规定: 设计风格轻松幽默,500 字以内。

讯飞星火 V4.0 得出文案基本没有什么罚分点:

20240703113106

GPT-4o 写文案也很优秀,规定一个点都满足。

未命名 8

上班族们总会必须写一些计划方案、活动策划什么的,此刻也可以借助大模型内容形成水平来辅助更有效地达到目标。这儿电脑系统网以“我公司计划开展一个阅读活动,帮我写一个活动策划方案”为需求,来进行检测。

讯飞星火给的计划方案乃是比较完整的,时长、地址、总体目标、步骤、前期准备工作、人员配备、费用预算评定、结论评定等各个环节都是有,并且不缺少小细节,易用性非常高。

未命名 9-side

GPT-4o 的策划书相对性简约一些,却也比较完整,应该有的地方都有了。

未命名 11-side

7、代码生成能力测评

用 AI 大模型协助敲代码也是一些程序猿常碰到的应用场景,也可以看作大模型具体内容形成水平的重要组成部分。

测试时,我可以先用下面的难题来磨练两个模型:

请使用 c# 语言表达形成下列编码:给你一个字符串数组 s,寻找 s 中最久的回文签串的。

假如字符串数组的反序与原始字符串同样,则其字符串数组称之为回文字符串数组。

编码请按照下面模版:

public class Solution {

public string LongestPalindrome(string s) {

}

}

就以编码可以直接拿去应用为原则,把大模型产生的编码用程序执行专用工具进行检验,看看是否可以直接极致运作。

最先还是要看讯飞星火 V4.0,它给的代码格式规范,优化算法也比较简洁,看上去特别舒服。

未命名 13

因为我不懂编码,所以干脆取得测试工具中运行检验,发觉这段代码能直接运作,输入参数都是精确的,换句话说能直接拿去用。

20240703115403

GPT-4o 这里,给的编码同样也有标准格式,也比较简洁.

gpt

取得检验软件中运行,也可以成功运作,主要表现一样非常好。

各平台

总的来说,在模型的通用技能层面,讯飞星火 V4.0 和目前 ChatGPT 最前沿的 GPT-4o 模型对比,自小编检测的情况看早已旗鼓相当,在跨模态、逻辑思维能力、数学思维能力等多个方面甚至要优于 GPT-4o,在日常生活和工作中,大伙儿一定可以仅用讯飞星火 V4.0,就可带来非常大的效率提高和其他一些方面帮助。

结束语

讯飞星火大模型自去年 5 月份正式公布,至目前迭代更新到第四个大版本号,仅有一年多的时间,这一年多里,讯飞星火的发展算得上是飞速,从最基础的敞开式互动问答到 AI 智能语音助手、再从跨模态水平、全语音识别,也有讯飞友伴等,再到现在智能体、私人空间等功能发布,讯飞星火的功效在变得更加全面且强悍的与此同时,也关注到用户对具体内容形成“人性化”的需要,现在的讯飞星火 V4.0 现在最全能型、运用特性最强大的 AI 大模型产品之一了。

发布会上,科大讯飞还谈到了讯飞星火大模型在国家能源集团、中石油、中国移动通信、中国人民保险、太平洋保险公司、交行等重点行业的使用,由此可见讯飞星火早就在 AI 大模型行业构筑起安全自主可控的独特优势,而根据对讯飞星火 V4.0 的体验,电脑系统网还对讯飞星火在未来的 AI 行业表现充满希望,相信他可以持续进化,让国内 AI 大模型技术和应用绿色生态从而实现国际化推动。

广告宣传申明:文章正文所含的对外开放跳转页面(包括不限于网页链接、二维码、动态口令等方式),用以传递更多信息,节约优选时长,结论仅作参考,电脑系统网全部文章内容均包括本声明。

相关阅读