软件工程实践——软件评测作业
文心一言是百度在人工智能领域推出的全新一代知识增强大语言模型。它能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识等。简而言之,它作为一款AI软件,能够高效的帮助人们解决知识性的问题。用户只需要在对话框输入要询问的问题并回车,它就会通过在数万亿数据中智能学习,并生成我们可能想要的某种答案。并且它作为网页软件,用户不需要下载,操作也相对简单,用户体验感还行。
| 这个作业属于哪个课程 | 软件工程实践-2023学年-W班 |
|---|---|
| 这个作业要求在哪里 | 软件工程实践——软件评测作业 |
| 这个作业的目标 | 对于文心一言、通义千问、讯飞星火、kimi等软件的调研、测评、分析、建议与规划 |
| 其他参考文献 | CSDN网站 ;百度; 《构建之法》 |
一、调研、评测
1 文心一言
1.1 使用体验
1.1.1 介绍和使用软件
文心一言是百度在人工智能领域推出的全新一代知识增强大语言模型。它能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识等。简而言之,它作为一款AI软件,能够高效的帮助人们解决知识性的问题。用户只需要在对话框输入要询问的问题并回车,它就会通过在数万亿数据中智能学习,并生成我们可能想要的某种答案。并且它作为网页软件,用户不需要下载,操作也相对简单,用户体验感还行。
使用软件的照片如下:
文心一言百宝箱功能:
1.1.2 优缺点分析
文心一言对于相对简单的文字知识性问题可以较为迅速的做出反应,并给出正确的答案(问题需求表达清晰的话回答正确的正确率挺高的)。如下图所示:
同时文心一言支持作图,但创作出来的图片基本与问题需求(即使问题需求表达很清晰的情况下)毫不沾边。如下所示:
优点:
1.对于目前网上所能查询到的资料、知识等,文心一言的数据量足够支撑人们日常的简单文字提问,并给出正确的解决方案和回答。
2.界面整洁、操作简单,易于上手。
3.可以支持图片、文档、指令等上传发起提问、修改、创作等。并附带部分插件,方便用户可以更迅速解决一些问题,功能性还不错。
缺点:
1.对于一些较为复杂的问题(如世界上暂无解决方案的问题、涉及主观性的问题、画图问题等)无法给出让用户满意的正确答案。
2.针对同一个问题的回答,每次回答的内容并不总是一致。
3.无法对上一次提出的问题进行记忆和识别,当用户追加问题时,有时会把追加的问题当做一个新问题,使得上下文无法连贯起来。
4.有字数限制,生成回答过长时直接停止生成。
5.VIP对功能以及问题回答存在差别,对贫民玩家不够友好。
1.1.3 用户对产品的改进意见
1.修复界面卡死bug:有时候AI生成回答时存在卡死现象。
2.优化AI问答能力:使复杂问题也能够生成相对正确的答案。并且能够保存上下文的问题需求,做到上下文问题回答连贯一致。
3.解决图片生成问题:解决图片创作货不对板的问题。
4.VIP问题:解决需要充值VIP才能享受部分服务的问题。可以换一种渠道让用户也能享受到部分的VIP功能。
1.1.4 用户采访
采访对象背景:外校计算机专业的大三学生
选择原因:专业为计算机专业,且有使用AI解决一些问题
需求:有时候借助AI进行写作、查询代码、问一些不懂的问题
栏目:文心一言对话栏目
遇到的问题:有时候无法对上一次提出的问题进行记忆和识别,当用户追加问题时,有时会把追加的问题当做一个新问题,使得上下文无法连贯起来。需要绘图时绘制不出来想要的图片。
亮点:对于文字性问题响应速度快,回答比较准确。
需要改进的建议:能够记忆保存上一个问题和追加的问题需求,最终做出符合上下文要求的答案。绘图功能再准确一些,使能够符合用户的基本要求。
1.2 BUG一
BUG描述:在给出问题后,切换到历史记录中另一个会话,之后在俩个会话来回切换几次,会发现回答生成不出来,始终卡在那里,图标一直转圈圈。
1.2.1 BUG测试环境
操作系统环境:WIndows11
浏览器环境:Microsoft Edge浏览器 版本 123.0.2420.97 (正式版本) (64 位)
1.2.2 Bug的可复现性及具体复现步骤
可复现性:必然发生
复现步骤以及现象:在给出问题后,切换到历史记录中另一个会话,之后在俩个会话来回切换几次,会发现回答生成不出来,始终卡在那里,图标一直转圈圈。
1.2.3 Bug分析
可能成因:在不同的会话来回切换问答,推测文心一言应该使用了多线程技术。当打开某一个会话时,其他会话线程停止,只允许当前会话运行。但出现这种卡死现象,可能是文心一言不能记忆和保存上一个问题,导致某一个会话重新运行时,丢失了所问的问题,以至于不能找到答案。因此最终只能加载生成中并一直转圈圈,而不能生成实际的答案。
BUG的严重性:★★☆☆☆
系统功能:影响了会话的结果生成
安全性:不存在用户的安全隐患
用户体验:对于爱在会话之间来回切换的uu们体验极其不佳,导致页面卡死只能重新打开网页。
Bug的预期及改进建议:用户在会话之间来回切换应该能够重新根据所问的问题进行答案的重新生成,生成不卡顿,流畅且回答要与问题相关。
1.3 BUG二
BUG描述:偶尔出现访问服务器人数过多,导致无法无法生成结果的情况。
1.3.1 BUG测试环境
操作系统环境:WIndows11
浏览器环境:Microsoft Edge浏览器 版本 123.0.2420.97 (正式版本) (64 位)
1.3.2 Bug的可复现性及具体复现步骤
可复现性:满足某些特定条件下会发生
BUG复现的条件:服务器访问人数过多,或者服务器崩溃。
1.3.3 Bug分析
可能成因:文心一言的服务器性能不佳,当人数访问过多时容易崩溃,导致无法访问。
BUG的严重性:★★★☆☆
系统功能:影响了对话的结果生成
安全性:不存在用户的安全隐患
用户体验:虽然会在极少情况下出现,但一旦遇见该情况,用户无法访问会对该软件产生厌恶心理,甚至可能以后都不想再用该产品。体验感极差。
Bug的预期及改进建议:扩大服务器的可访问人数,满足更多人同时使用文心一言。
1.4 结论:
一般。在正常情况下,还是能对问题进行迅速的反应,回答准确,可满足日常的需求。
2 通义千问
2.1 使用体验
2.1.1 介绍和使用软件
通义千问是阿里云推出的一款超大规模的语言模型软件,具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。可以续写小说,编写邮件等,展现出文案创作能力。
使用软件的照片,如下:
对于简单的文字问答还是比较迅速、准确的做出回答
绘图功能:
上传图片解析问答功能:
2.1.2 优缺点分析
优点:
1.界面简洁,易于操作,用户可以快速上手。且没有VIP广告,让人觉得比较清爽干净。
2.对于目前网上所能查询到的资料、知识等,通义千问的数据量足够支撑人们日常的简单文字提问,并给出正确的解决方案和回答(个人模型调校的比文心一言的好,回答比较智能)。
3.可以支持图片、文档、等上传发起提问、修改、创作等。并附带大量百宝箱功能,方便用户可以更迅速解决一些问题,功能性还不错。
缺点:
1.对于一些较为复杂的问题(如世界上暂无解决方案的问题、涉及主观性的问题等)无法给出让用户满意的正确答案。
2.生成图片虽然符合基本要求,但是生成速度过慢。
2.1.3 用户对产品的改进意见
优化一下生成图片的速度。
2.1.4 用户采访
采访对象背景:外校计算机专业的大三学生
选择原因:专业为计算机专业,且有使用AI解决一些问题
需求:有时候借助AI进行写作、查询代码、问一些不懂的问题
栏目:通义千问对话栏目
遇到的问题:绘图过慢,有的时候纠正一个问题需要纠正好几次,即使追加了要求也还是生成与上次相同的答案。
亮点:对于文字性问题响应速度快,回答比较准确。
需要改进的建议:加快图片的生成速度。且能够迅速抓住问题重点,给出用户想要的答案。
2.2 BUG
BUG描述:在给出问题后,等到结果还未生成完成时,切换到浏览器的其他界面,再切回通义千问界面发现结果生成仍然保留在上次切换时的那段语句(即切换到别的界面,通义千问没有在后台自行继续生成结果,而是要用户的界面一直停留在通义千问才能继续生成后面的语句)。
2.2.1 BUG测试环境
操作系统环境:WIndows11
浏览器环境:Microsoft Edge浏览器 版本 123.0.2420.97 (正式版本) (64 位)
2.2.2 Bug的可复现性及具体复现步骤
可复现性:必然发生
复现步骤以及现象:在给出问题后,等到结果还未生成完成时,切换到浏览器的其他界面,再切回通义千问界面发现结果生成仍然保留在上次切换时的那段语句(即切换到别的界面,通义千问没有在后台自行继续生成结果,而是要用户的界面一直停留在通义千问才能继续生成后面的语句)。
2.2.3 Bug分析
可能成因:程序设置了只能在通义千问界面才能运行,一旦访问别的界面,通义千问进程将暂停。当切换到通义千问界面,进程将继续运行,
BUG的严重性:★★☆☆☆
系统功能:影响了会话的结果生成速度
安全性:不存在用户的安全隐患
用户体验:如果不是爱切换界面的uu,基本不受影响。如果是爱在AI生成的时候切换到别的界面的uu,可能导致自己想要的结果没那么快生成。
Bug的预期及改进建议:在用户切换浏览器界面时,会话应该能够在后台自己继续运行并生成结果。
2.3. 结论:
好,不错。相比于文心一言,bug较少,功能比较丰富,模型训练比较成熟,用户体验感较好。
二、分析
1.1 开发时间估计
这俩种AI模型的前端界面相对简单,主要是后端的数据挖掘、数据搜索、过滤等比较复杂。
| 产品名称 | 功能 | 开发时间估计 |
|---|---|---|
| 文心一言 | 问答模块、图片理解、文档解析、百宝箱 | 200天 |
| 通义千问 | 问答模块、图片理解、文档解析、百宝箱 | 230天 |
1.2 同类产品对比排名
| 对比项 | 文心一言 | 通义千问 |
|---|---|---|
| 功能数量 | 较多 | 较多 |
| 功能实现 | 一般 | 较完善 |
| 实用程度 | 一般 | 实用 |
| 用户体验 | 一般 | 好 |
| 排名 | 2 | 1 |
1.3 软件工程方面的建议
| 产品名称 | 建议 |
|---|---|
| 文心一言 | 优化切换会话的卡死bug;调整绘画模型; |
| 通义千问 | 优化绘画生成速度;解决切换浏览器界面,结果不能继续生成的bug |
1.4 BUG存在的原因分析
文心一言:bug一的原因:测试把关不够严格,没注意到这个漏洞。
文心一言:bug二的原因:注意到了这个bug但是还未修复,毕竟服务器的扩大需要经济支撑。
通义千问:bug的原因:测试把关不够严格,没注意到这个漏洞。对用户需求掌握不好,没发现用户有这种需求。
1.5 团队还存在的问题
1.用户需求还应深入挖掘,尽量满足大多数人的需求。
2.产品测试还应加强,不止停留在软件界面上,还应考虑用户使用的各种可能场景。
三、建议和规划
1.1 市场概况
市场大小:人工智能大模型市场在过去几年里持续增长,并且预计未来仍将保持增长态势。这种增长得益于大模型在各种领域的广泛应用,包括自然语言处理、计算机视觉、语音识别、推荐系统等。
市场用户
直接用户:企业和组织、开发者和研究人员、医疗保健领域。
潜在用户:随着AI的普及和使用,几乎各行各业的人都可以是AI的潜在用户。
1.2 市场现状
市场上的产品:
- ChatGPT
- 通义千问
- 文心一言
- 讯飞星火
产品的优劣:
| 产品名称 | 定位 | 优势 | 劣势 |
|---|---|---|---|
| ChatGPT | ChatGPT是由OpenAI开发的通用型人工智能语言模型,旨在进行自然语言理解和生成,提供流畅的对话体验。 | 1.强大的语言生成和理解能力,能够理解和生成自然流畅的文本。 2.拥有广泛的知识,可以涉猎多个领域的问题。 |
1.尽管ChatGPT能够生成自然语言,但它缺乏对情感的真正理解,因此可能无法提供符合情感需求的回应。 2.基于法律和伦理考虑,ChatGPT在某些敏感话题上可能会受到限制,无法提供详细或准确的信息。 |
| 通义千问 | AI训练语言模型,旨在提供高质量的文本生成和对话交互能力,该模型在搜索、创作辅助、问答系统等方面具有应用潜力。 | 通义千问可以根据用户的输入和需求提供个性化的回答和服务,提高用户体验。 | 1.由于语义理解的局限性,通义千问有时可能会误解用户的问题或者提供不准确的答案。 2.尽管通义千问具有一定的知识库,但仍然可能无法涵盖所有领域的知识,导致某些问题无法得到满意的回答。 |
| 文心一言 | 文心一言是百度推出的大语言模型,旨在提供文学创作、商业文案创作、数理推算等综合能力。 | 1.作为本土产品,可能在处理中文复杂性与文化理解上更胜一筹。 2.能与百度其他产品和服务深度整合,提供更全面的信息服务。 |
1.绘画功能比较薄弱。 2.商业元素太浓。 |
产品之间的关系和态势:
关系:上述产品之间都是竞争关系。
态势:ChatGPT凭借其先发优势及其强大的功能和口碑,目前在市场上占据较为明显的优势地位;而文心一言、讯飞星火、通义千问等虽然起步较晚,但在中文市场日渐展现出各自独特竞争力,但与Chat GPT还存在一定的差距,仍然还有进步的空间。
领域所处阶段:目前正处于成长阶段。
1.3 市场与产品生态
产品的核心用户群:企业和组织、开发者和研究人员、文学艺术内容创造者、学术研究者、医疗保健领域。
学历:用户普遍拥有较高的学历水平,包括大学生、研究生、博士生以及各个领域的专业人士等。
年龄:各个年龄段基本都有所涵盖。但以中青年为主。
专业:广泛涉及各种专业领域,包括但不限于IT、科研、教育、市场营销、法律、金融等。
爱好:对于科技创新、文学创作、知识探索有浓厚兴趣的用户。
收入:中上水平。
表面需求:需要利用AI来辅助进行文档生成、数据解析、知识探索、快问快答、工作辅助等。
潜在需求:情感互动、用户个人能力提升等。
用户群体之间的关系:用户群体之间可能出现跨专业合作的现象,通过协同合作,共同解决生活中遇到的一些难题。
1.4 产品规划
1.4.1 功能及NABCD分析
-
Need(需求): 用户需要一个更加智能和个性化的对话体验,能够更好地理解和回应他们的需求,以及提供更加个性化的建议和帮助。
-
Approach(方法): 通过引入情感分析和上下文理解等技术,加强产品在情感交流和个性化对话方面的能力,使得它能够更好地理解用户的情感状态和需求,并能够根据上下文提供更加个性化和贴合用户情感的回复。
-
Benefit(好处): 用户可以获得更加智能和个性化的对话体验,感受到与AI软件的更深层次的情感连接,得到更加贴心和符合自己情感状态的建议和帮助,从而提升对话的满意度和效果。
-
Competitive (竞争): 软件的创新点在于其能够结合情感分析和上下文理解等技术,使得它能够更好地理解和回应用户的情感需求,从而提供更加个性化和贴合用户情感的对话体验,这是目前AI软件所不具备的,与其他AI对话系统相比具有明显的竞争优势。
-
Delivery (推广):
1.社交媒体宣传: 利用各种社交媒体平台,发布关于新功能的宣传内容,包括演示视频、用户案例、功能介绍等,吸引用户关注和试用。
2.博客和文章营销: 发布博客文章、新闻稿或行业报道,介绍新功能的特点、优势和使用方法,吸引读者的注意并提供深入的了解。
3.合作伙伴推广: 与相关行业的合作伙伴或意见领袖合作,共同推广新功能,通过他们的影响力和渠道,将新功能推荐给更多的用户。
4.定向广告投放: 在相关的网站、应用程序或社交媒体平台上投放定向广告,将新功能展示给潜在用户,吸引其点击了解并试用。
1.4.2 配置角色
项目经理(1人): 负责整个项目的规划、执行和监督,协调各个团队成员的工作,确保项目按时交付并达到预期目标。
软件开发工程师(2人): 负责开发新功能和改进现有功能的代码,根据需求进行编码、测试和优化,确保软件的功能完整、稳定和高效。
测试工程师(1人): 负责进行软件的功能测试、性能测试和用户体验测试,发现并报告软件中的问题和缺陷,并与开发团队合作解决问题,确保软件质量符合预期。
UI设计师(1人): 负责进行用户界面和用户体验的设计和优化,确保用户能够方便、直观地使用软件,并提升用户体验和满意度。
机器学习工程师(1人): 负责开发和优化与机器学习相关的功能和算法,如推荐系统、预测分析等,为软件增加智能化和个性化的特性,提升用户体验和产品竞争力。
1.4.3 详细规划
- 第一周:项目启动会议,确定项目目标、范围和计划,分配任务和角色,制定项目进度计划。
- 第二周:需求收集和分析,讨论并确认需求,制定详细的功能规格说明书。
- 第三周一第六周:开始软件开发工作,根据功能规格说明书进行编码和测试,每周进行代码审查和单元测试。
- 第七周一第八周:进行集成测试,确保各个模块之间的功能正常协作。
- 第九周一第十周 :优化软件性能和用户体验,解决已发现的问题和反馈。
- 第十一周一第十二周 :进行用户界面和用户体验的设计优化,提升软件的易用性和吸引力。
- 第十三周一第十四周 :进行功能测试、性能测试和用户体验测试,解决测试中发现的问题和缺陷。
- 第十五周一第十六周 :进行软件验收,确认软件符合预期要求。发布软件的改进版本,开始推广和宣传工作,吸引用户试用并提供反馈。
更多推荐


所有评论(0)