第60章 给词语一个向量

咬文嚼纸 / 著投票加入书签

悟空小说网 www.wkxs.cc,最快更新学霸的黑科技时代最新章节!

    (一个通知,应大家要求小说的时间轴更改为2017年11月开始,现在剧情时间是2018年3月。当初设定在2009年11月底开始并不是为了文抄公抄袭现在已经有的技术,而是希望把时间轴拉长一点,现在读者反映放在八年前代入感弱一些,有些读者塞班手机都没有用过,因此进行修改。修改后的前文主角家庭收入、房价、使用的手机电脑等的符合当前时代,别的没有什么变化,不影响后文。大家如果发现我前文还有哪里没有修改的,请告知,说明不占字数。以上。)

    萧铭详细阅读着盘古语言的优点,最大的有点就是集成了人类汉语的所有逻辑和规则,能够将人类语言表达意思直接告诉机器。

    盘古语言如果使用在潘沙星的生物思维计算机上更能够发挥作用,现在使用在二进制计算机上,只能说将功能发挥的勉勉强强。

    接下来,萧铭将自己购买的应用套餐兑换为翻译软件。

    电脑上出现了翻译软件的详细编程步骤。

    兑换的应用套餐不会直接将应用送给你,而是让萧铭实际操作,自己捣鼓一个程序出来。

    授人予渔不是授人予鱼就是这个道理。

    萧铭想着,其实自己的英语已经进步很大的了,语法的问题已经不大,最大的缺点是词汇量少,听说能力差,看得懂听不懂说不会。

    这也是大部分夏国学生学习英语的困境。

    英语重要吗?就现阶段来说,肯定重要。人类目前大量的技术科学都是来自于西方,英语不好连SCI的论文都看不懂更别说做学术了。

    萧铭这半年来最大的变化就是会自我反省,英语不好也要反省。

    他可以抽宝箱,可以兑换科技,但是这些科技产品也是建立在基础科技知识之上。

    要是萧铭不懂基础的生物知识,他就不会培养吞噬1菌类,同样,要是他不懂逻辑知识也绝对不会编程。不懂英语看不懂国外的学术也不会在科技上进步。

    天下没有免费的午餐,人生再有外挂也得努力。

    回到计算机屏幕上,萧铭有了一个大胆的想法,他需要的不仅是一个翻译软件,而是需要的一个能够较为智能和自己进行英语对话,尽快提高自己英语听说水平的软件。

    按照盘古语言的编程说明,萧铭开始动手。

    首先,在编程的页面上,萧铭书写着应用软件的总说明——能够智慧准确的相互翻译英语和汉语,并且能和用户对话。

    接下里就是程序的具体书写。

    萧铭英语词汇量不足,但是语法没有问题。

    萧铭归纳,现今市面上的翻译软件和翻译机最大的缺陷有两个。

    一个是词不达意。无论是英语还是汉语,通常会有多种意思,在不同的语境中有不同的解释,但是机器翻译并不能完全了解人类表达的意思。很多时候单词的词语意思准确,但是放在句子中笑话百出。

    还一个是无法识别人类的语音。这主要出现在翻译机上,每个人有很多种口音,生活中的对话有很多的俚语,人和人之间对话时绝对不可能像央视主播那样每句话都是语言要素齐全,语音标准。

    机器翻译在很多时候都会捡着听得懂的翻译,听不懂的乱翻译。这也是很多品牌的翻译机拿到国外去应用的时候让顾客感到并不顺心,翻译机更不能作为会议同声翻译的原因。

    为了处理上面两个主要问题,萧铭按照说明书的建议项,编辑着。

    萧铭采用数学的思维,将每个词语设定为向量,并且分类为名词、动词等等。

    将词语设定为向量的好处就是讲长难句进行肢解,翻译软件处理时会将每个词语准确的翻译。

    接下来就是按照语言的语境筛选组合,将不同的词语按照翻译对象需要的语法和含义进行组合,并对缺少的语法要素进行补足。

    在盘古编程语言的提示下,萧铭知道自己编程的逻辑是正确的。

    但是逻辑正确只是第一步,怎么让拥有向量的词语按照语法组合为新的语句,这个很难,这也是现代翻译软件和机器最大的难点。

    没有关系,这是盘古最擅长的。

    盘古给了萧铭几个接入入了口。

    萧铭将导入大量的中英文资料,资料不仅有名著更有口水话表达的网路小说、贴吧问答、微博、推特文章等等。

    未来这些资料会可以由用户们自己上传,优化程序的准确性。

    盘古的数据库能将整合这些资料,熟悉每一个句子的语境,然后整理出数据模型(模拟出汉语和英语等人类思维表达方式的模型)。

    这些数据会帮助“词向量”在不同的语境和语法中出现在合适的位置,如此翻译会更加准确。

    这项工作最大的难点就是编译量非常大!

    所以现今市面上现存的翻译软件都是采用语言学家总结的语法库,即便有少部分软件有自我学习功能,也不能做到了解和统计当今所有的语言习惯并对其作出分析。这也是现有翻译软件机械不智能错误百出的原因。

    剩下的一些接口,萧铭将其接入全国各地的免费直播间,直播间主播有用普通话有用地方语言,也属于口语的表达,最具有代表性。

    盘古语言将搜集各地的语音和语气将其归类编译,最后形成语音数据库和文字库相对应。

    盘古编程使用方式很简单,不需要输入代码,只需要告诉逻辑意图,当萧铭告诉逻辑和方式之后,编程语言就可以明确运行。

    然后……

    然后计算机卡死了,卡得发烫!

    萧铭废了半天功夫心血化为乌有。

    劳资……

    萧铭购买的笔记本是华硕的普通笔记本,用的是i7 8550u处理器。

    笔记本的处理器处理如此大量的数据,不卡死才怪!

    萧铭看了下时间,已经凌晨三点。

    “我需要一组服务器。”萧铭说道,随后他躺在床上继续思考着语言翻译和英语学习助手软件的逻辑性问题。

    接下来的几天,萧铭在学校很沉默。

    除了做必要的数学和理综练习题以外,大部分时间都在做英语阅读和语文阅读。

    学校小组的成员都知道萧铭在水木大学老师离开之后心情不怎么好,都没有去打扰他。

    几天之后,萧铭问老爹要了十万块的经费,直接网购了四组英特尔Xeon E5-2603v4芯片组建的服务器主机,并且联系人上门安装。又花钱开通了企业光纤专线。

    萧铭看着白花花的银子今天时间就花没了,也是肉痛。

    两个行业绝对是暴利!

    一个是英特尔的芯片行业,一个是电信的通讯行业!

    安装服务器的年轻师傅看着几天没睡好觉有些沧桑猥琐的萧铭,偷偷说道:“建直播网站?小兄弟,现在风声紧,服务器好还是租用海外的好点,自己建设风险大!”

    萧铭无语,“那你要不要先充个会员?可以一对一。”

    师傅嘿嘿笑了两声说道:“不了不了。”