对话雪湖科技王韵—火山口湖—FPGA已经到了火山口

星座密码 2020-08-0162未知admin

  硬件加速,目前已获得包括美图在内的2轮投资。可为人工智能、金融交易、工业控制、生物医药、气象研究等提供一站式FPGA加速技术解决方案。

  

  雪湖科技COO王韵做出这种判断,是基于AI5G等带来的数据量指数级增长的需求。对于大规模并行计算,FPGA是一个非常核心的选择。

  根据MRFR统计,2018年全球FPGA市场规模为60亿美元左右,而随着AI+5G的应用逐步展开,市场规模有望在2025年达到125亿美元,年复合增长率为10.22%。其中在亚太地区,尤其是在中国,由于新兴基础建设应用的铺开,FPGA的复合增长率有望高于地区,成为重要的增量市场。

  除了AI、5G,汽车也是重要的驱动力。随着智能驾驶的推进,车上的数据运算规模将比传统汽车达到十倍、甚至百倍的增长。由于汽车对于实时性的高要求,导致它无法进行数据上云,而现有的车身运算架构,更适合进行控制,完全无法支撑未来的运算规模。况且,未来还有车与车之间的通信,还有海量的大规模数据爆发的场景。

  我很好奇雪湖科技当时为什么选择FPGA这个小赛道,毕竟这是个被巨头和寥寥可数的几家主导的市场,不乏“不差钱”的创业已经死在半上。

  王韵并不这样看,他认为FPGA是一个绝对值得憧憬的大赛道。相对于全球4000亿芯片市场规模,FPGA现在60亿的规模虽然并不大,但是根据测算,它有望在5年内增长到200亿。如果再放到应用市场去看,将会是乘以10的规模。

  雪湖科技在2017年成立时,就已经看到了整个行业的大趋势。而最重要的是,一切都源于核心团队的早期积累,以及对FPGA创业的冲动和热情。

  “我们都是一帮特别喜欢FPGA的人,比如CEO张强,早些年曾以核心人员的身份参与了多个全球性的FPGA科研项目,和NASA、美国国家癌症中心和国内的科研院所都进行过合作”,王韵介绍。

  张强做过的一个很有名的项目是比尔盖茨基金旗下的“激光打蚊子”,曾经获得了该年度“福布斯全球十明”之一。这个项目的目的是帮助非洲消灭疟疾的主要者——蚊子。生化方面的方案由于不够环保,因此选择了激光这一手段,张强团队负责整个项目的算力部分。整个方案最大的难点在于,要在高速摄像头取景框中同时抓取到的4000多只蚊子中,区分出公蚊子、母蚊子甚至还有蜜蜂。而这还不够,由于只有母蚊子才叮人,因此需要精确识别出母蚊子,再控制激光头打掉它的翅膀(至于为什么不直接消灭蚊子而是只打掉它的翅膀?原因在于采用的是小功率的民用激光头,能量不足以消灭掉它,但打掉翅膀就等同于了叮咬能力)。

  整套方案基于非常精妙的设计和环环相扣的运算,而要完成这样的运算,对于芯片的硬件性能要求非常高。该方案的所有视觉处理运算,都是通过FPGA来完成的。

  不只是CEO,王韵本人也是半导体领域的资深人士。他是日本国立九州大学硕士,师从著名的产业经济学教授山崎朗,曾就职于通集团,任职亚太区高管。在半导体领域多年的从业经历,使他注意到了摩尔定律下的半导体工艺红利消失后,算力即将出现的巨大缺口。“你不觉得吗?FPGA是一个很神奇的芯片,它打通摩尔定律,可以发挥软件人的能力来定义硬件,可以帮助实现很多数据运算、完成加速,太多的机会可以去开拓了”,王韵兴奋地表示。

  FPGA是加速许多计算工作负载的出色,特别是那些数据通适用于大规模并行运算的工作负载。FPGA可以通过在硬件中实现重要的计算密集算法块来减少对传统处理器的调用,从而大幅减少延迟、降低功耗。

  图片/视频可能会是即将爆发或是正在爆发的下一个场景。今年双11,淘宝/天猫A、网页端,实现不同格式或分辨率的图片转码全部由FPGA来完成的。“这就是一个非常明显的趋势”,王韵提到,“随着交易量的攀升,这个需求还会变大。特别是现在还不止图片浏览,还有直播等多种形态的出现。”

  根据预测,到2022年,视频将占据全球80%的数据流量。而FPGA可以实现运算加速、内存加速、智能网卡加速等等。

  第三个有希望普及的场景就是计算机,但前提是算力需要足够的便宜。王韵,计算机已经开始有民用化的趋势。最早计算机用于领域,被NASA用于对飞机进行损伤评估。后来,由车企引入汽车设计的最后流程中,通过对设计的合、疏漏等进行评估。与传统的方式相比,大大缩短了造车的时间周期。

  那么未来,有没有更多场景会用到基于FPGA加速的?王韵认为关键在于“算得够快、算得便宜”,当这个问题得解时,一定会存在越来越多的可能性。

  看到了互联网对投放、内容点击率的痛点后,雪湖科技推出了“WidndDeep”FPGA加速器。这是一个什么样的方案?

  你可能有和我一样的感觉,云音乐推荐的“今日单”,抖音上的短视频,购物A的“猜你喜欢”,怎么就那么懂我?

  推荐系统中,CTR(Click-Through-Rate,点击率)至关重要。这就需要更为精准的推荐和投放。2016年,谷提出了“WidndDeep”算法模型,现在已经被Facebook、Youtube等国际领先的互联网广泛使用。

  “WidndDeep”模型主要包括LR和DNN两部分。这就好比融合了人类从认知学习过程中演化而来的记忆和学习能力:从出生开始,我们不断学习知识,通过记忆达到见多识广的效果。然后通过历史知识泛化(generalize)到之前没见过的。当然,由于泛化的结果不一定都准确,可以通过记忆(memorization)修正泛化的规则(generalizedrules),作为特殊去处理。这就是“WidndDeep”的学习方式。

  举个例子:推荐系统通过历史数据知道“喜欢吃水煮鱼”的人也“喜欢吃回锅肉”,当输入为“喜欢吃水煮鱼”,推出“喜欢吃回锅肉”。这部分就是它的记忆能力。

  而通过推断在历史数据中从未见过的情形,由“喜欢吃水煮鱼”,“喜欢吃回锅肉”,推出喜欢吃川菜,进而推荐出川菜,这就是泛化能力。

  当输入一些之前没有学习过的数据时,模型表现不够优秀,此时单单依赖记忆能力是不够的。通过在CTR模型中引入深度学习,能够达到更好的效果。火山口湖深度学习构建多层隐层,通过FC(全连接)的方式挖掘到特征与特征之间的深度隐藏的信息,来提高模型的泛化能力。最终将这两部分的输出通过逻辑回归,就得出预测类别。

  由于部署于GPU的成本高,火山口湖这一算法以往采用CPU来加速,但性能并不理想。那么,雪湖科技是如何通过FPGA来实现的呢?

  据王韵介绍,在完成推荐过程时,会根据用户信息提取用户自画像和商品属性,输入到模型,再根据相应算子得出最终结果。基于赛灵思FPGA构建出的“Widnddeep”加速器,能够根据模型API制作出雪湖科技API,再由自研发的工具包将模型和数据转换为可由FPGA处理的数据,从而快速计算出结果。

  将结果进行处理和排序也就是我们日常可见的推荐界面了。由于不同的用户有不同的个人信息和喜好,经过模型计算也会有不同的结果,也就对应出不同的推荐内容了。

  

  相较于CPU服务器,基于FPGA加速器打造的这一解决方案将吞吐量提高了3~5倍,性价比是CPU的5.5倍。对推荐系统动辄上亿、几十亿的部署,带来巨大的经济效益。

  雪湖科技和赛灵思已经共同推出了由AlveoU200加速卡支持实现的“WidndDeep推荐算法加速解决方案”,相较于CPU服务器,把吞吐量提高了3~5倍,加上功耗更低,其TOC(总体拥有成本)是CPU云的5倍以上。一组预估CTR数据显示,综合成本、性能来看,这一FPGA加速器产品相对CPU呈现出了绝对优势。

  考虑到大型推荐系统的上线都是通过云端部署,同时用在线和离线方式更新模型。雪湖科技还把以WidndDeep为基础网络的模型移植到阿里云FPGA服务器F3上,用户可以通过镜像文件部署。根据最近的更新数据显示,模型精度损失可控制在十万分之二。当模型更新时,通过雪湖科技提供的专有工具可直接载入模型参数,可做到一键式更新模型参数。

  基于在半导体领域数十年摸爬滚打的经验,雪湖科技团队对FPGA的理解更为深刻,也使得他们在成立短短两年内取得了快速的发展。

  王韵说,“我们有一句口,叫做‘一样的FPGA,不一样的加速’。同样一个芯片,经过我们软件后,跟别人达到的性能是完全不一样的。我们的产品思是:用ASIC的方法去FPGA,也许在物理上无法实现,但是可以去无限接近ASIC的水平。当它无限接近时,一部分ASIC市场,就会变成FPGA的市场。”

  不过,王韵并不认为未来ASIC、GPU或是FPGA中的哪个会吃遍天下,而一定是共存的状态,只不过各有自己更适合的场景。

  雪湖科技还有一句口,印在的文化衫背后——“愿算力与你同在”。这句源于王韵由儿子的星际大战玩具得到的灵感,蕴藏了两重深刻含义:第一,表明他们是聚焦于算力的;第二,也是雪湖科技的愿景,是他们希望达成的终极目标。

  伴随着数字化的发展,算力的缺口一直存在,且正在因为AI的发展不断增大。雪湖科技的切入点从FPGA加速开始,通过算法提升来帮助客户解决算力问题。而AI只是雪湖科技的标签之一,FPGA的应用和硬件加速绝对并不局限于AI。

  未来,算力提升的关键是什么?王韵认为,首先硬件方面的提升是根本,但是,软件会变得越来越重要。

  FPGA的软件定义能力,就像是ASIC的前端设计能力一样重要。以拼乐高来打比方,同样的一盒乐高,最终的作品可能天壤之别,这就是软件的能力不同所导致的。“这也就是为什么雪湖科技从软件的角度切入来提升算法,因为它能够跨越芯片本身的物理特性,随着需求的提升而变化。软件在算力提升方面变得越来越重要”,王韵表示。

  在FPGA200亿市场的爆发前夜,雪湖科技有一个重要且紧急的问题摆在面前,那就是“人”的问题。国内的FPGA工程师总量并不多,且多数集中在通信领域和科研院所,这种情况下,吸引优秀人才变得难上加难。

  据王韵介绍,他们可能是国内创业中为数不多的把内部培训当做差异化竞争力的企业。“雪湖极客学院”专门给新入职的工程师提供培训,而且执行非常严格的考试和淘汰制度,三个月的培训结束后,会有隆重的毕业典礼、正式的毕业证书颁发。

  这样一套体系固然有利于新人的培养,但是,很有可能就会成为一个费力不讨好的“赔本”生意:三个月的培训期间,工程师带薪学习,零工作量、零业绩,只需要专心学习。对于初创,这绝对是一笔不小的投入。“拿来主义”可不可以?通过高薪挖人、让人才迅速创造价值,不是更为便捷?

  王韵的答案是:在国内FPGA工程师总量就很少的情况下,火山口湖互相争夺人才,不利于市场的增长和长远发展。必须解决了人的问题,未来才有可能进一步做大。

  雪湖极客学院的内训课程,整套制度设计由王韵和CEO张强两人共同完成。目的就是为了能在最短时间内,培养出能够快速上手的优秀人才。就好比造子,以前可能需要从拌水泥、黄沙做起,因此需要掌握配比和基本的知识。但现在相当于直接给你预制板了,造子的速度会加快,能够把更多的精力放在怎么把子造得更好这件事上。

  雪湖极客学院正在逐渐发挥出作用。第一,员工在这个体系中,可以快速成长并得到成就感;第二,利于雪湖科技正在快速形成规模化的软件生产能力、能力,在人才建设上与创业拉开差距。

  我没有问他坐在火山口上是一种什么样的感觉,应该是一种焦灼又幸福的等待吧。

  随着信息需求量的增大,网络都逐渐朝着综合化、宽带化方向发展。数据速率的提高,对于数字处理的速度和....

  现场可编程门阵列FPGA是一种由用户实现芯片功能的器件,用户在设计完成之后可以进行功能,也可以现....

  Σ-Δ调制在数字处理以及通信系统方面的应用正越来越引起大家的重视,因为Σ-Δ调制实现时主要采用数....

  近年来,数字AM调制技术应用越来越广泛,具体应用中多采用专用的调制芯片完成。文中介绍一种在FPGA中....

  随着科学技术的进步,电子器件和电子系统设计方法日新月异,电子设计自动化( Electronics D....

  在GPS接收机的设计中,为了检验和完善处理算法,需要在本地获得GPS数字中频数据。采用真实的....

  光电脉冲编码器是一种集光、机、电为一体的用于检测机械位移或间接检测速度的光电传感器,根据其用于检测角....

  基于FPGA技术和CVSD编解码算法实现编的设计和仿线 Kbit/s的A律或μ律的对数压扩PCM编码在大容量的光纤通信系统和数字微波系统中已得到广泛应....

  传统的视觉测量系统主要是在 PC机上采用软件方式实现,由于其专用性不够高,因此处理速度较慢。近年来,....

  在视频处理系统中,并行输入输出的频率一般都在百兆赫兹以上,而且对时序的要求也非常严格。本文以....

  在时分复接通信系统中,位同步是收、发两端的时钟频率必须同频、同相,这样在接收端才能正确地判决发送端送....

  软件无线年代兴起的一种充分结合软件和硬件优势的新技术,该技术源于军事领域对通信系统灵活性的特....

  在处理过程中,我们通常将模拟为数字进行处理或传输。原始数据用取样的方法进行采集,通过....

  高速以太网可以满足新的容量需求,解决了低带宽接入、高带宽传输的瓶颈问题,扩大了应用范围,并与以前的所....

  本文介绍了一种以FPGA作为,FLASH MEMORY作为主存储器的大容量高速存储系统方案,并....

  在雷达、气象、地震预报、、通信等领域里,现场具有重要的作用,这些的主要特点是实时性强....

  混沌是由确定性动力学系统产生的类似噪声的确定性。自从混沌同步现象发现以来,混沌在工程上的应用....

  近几年,超宽带(UWB)无线通信系统在短距通信领域中越来越受到人们的重视。它具有许多独特的优点,如通....

  现代图像处理系统对实时性的要求愈来愈高,但图像的前端采集往往会受器件或影响而使获得的图像含有噪声....

  本系统要实现的功能包括:可以运行嵌入式操作系统;支持NIOS II;支持USB通讯;支持RS-2....

  嗨专家, 我有一个使用XC7K325T-2FFG900C的新设计,HP组的IO标准是LVDS18(1.8V LVDS),该组将从另一个部...

  最近,我正在学习7系列FPGA。 最近我注意到FF的SR非常有效。 我之所以如此交叉。 感谢所有能与我沟通的人。...

  大家好, 我目前正在研究基于thetrix xc7a35tg484-1的设计。 电源是: VCCINT - 1.0V VCCBRAM - 1.0V VC...

  提升工业仪器控制精度的趋势推动着对高精度光隔离的需求。瑞萨RV1S9353A具备业界领先的精确感测特....

  任何人都可以向我推荐他/她可能在fpga atrix 7板上进行adc转换的项目。 我不知道该怎么做...任何有关这方面的文件都会有所帮助。...

  本文介绍了基于FPGA 的数据采集系统电的工作原理和设计过程。根据数据采集技术原理,以Altera....

  基于StratixⅡEP2S30484C5芯片的乘除法和开方运算算法的实现

  在FPGA的应用中,大多数EDA软件(后面以altera QuartursII为例)都提供乘除法....

  如果没有fpga工作经验的话,确实不好找。你不一定一上来就面试FPGA工程师,可以先从硬件工程师做起....

  应用FPGA动态部分重构功能使硬件设计更加灵活,可用于硬件的远程升级、系统容错和演化硬件以及通信....

  FPGA是英文Field-Prramble Gate Array的缩写,即现场可编程门阵列,....

  步进电机是把脉冲转换成角位移或直线位移的执行元件,是一种输出与输入数字脉冲相对应的增量驱动元件。....

  现场可编程门陈列(FPGA)芯片在许多领域均有广泛的应用,特别是在无线通信领域里,由于具有极强的实时....

  经常看到不少人在里发问,FPGA是不是用C语言的?国外有些专注于解决编译器这方面问题....

  FPGA 器件作为可编程逻辑主流硬件,近年来,应用越来越广泛,在现代科学技术中占有举足轻重的作用和地....

  我有一个待测veril设计,烧到de2里跑,需要用到rs232串口与pc机进行数据传输,请问我需要写一个rs232收发模块与我的verilo...

  我有一个基于XC7A200T-2FBG676I的定制PCB设计,使用主SPI配置模式。 在前两个月,每次上电时FPGA配置都没有。...

  由于VHDL不能处理负电平,只能面向“1”、“0”两种状态,所以要对它的输出进行编码,如表1所示。编....

  跳频通信具有保密性强,抗干扰能力强,频谱利用率高等优点,获得了广泛的应用。跳频同步是其中的关键技术之....

  基于以上讨论,可以看出ASIP+FPGA设计模式可以从很大程度上解决引言中提到的两个难题。为了进行更....

  时间延时积分电荷耦合器件 (Te Delay and Integration Charge Co....

  由于两视频的产生来源于相同景物的不同区域且有交叠部分,在任意拍摄时刻得到的两帧图像必然存在一定....

  系统简化结构如图1所示,采用AD高性能视频专用模数转换器件(ADC) AD9883,采集三R,....

  利用FPGA芯片EP1C3T144I-7和模数转换器提高总功率测量精度

  数字处理是过去四十年以来快速发展起来的科学和工程领域,这种快速发展是数字计算机技术和集成电技术....

  基于Xilinx Virtex-II FPGA的硬件哈希算法的研究

  在计算关键词在文档里出现次数的过程中,需要一种存储结构来存储相关信息,这种存储结构必须易于执行查找、....

  基于ACEXIK系列FPGA器件EPIK10实现8脉冲量计数系统的设计

  该设计选用了Altera生产的ACEXIK系列FPGA器件EPIK10实现对8脉冲量的计数,对....

  19年美国JPL实验室处理了太空船“徘徊者七”发回的月球照片,标志着数字图像处理技术开始得到实....

  步进电机是一种离散运动的装置,步进电机驱动器通过外加控制脉冲,并按环形分配器决定的分配方式,控制步进....

  FPGA作为一种高新技术,由于其结构的特殊性,可以重复编程,周期较短,越来越受到电子爱好者的青睐,其应用...

  随着物联网(loT)的快速发展,未来将会存在海量的数据。大数据时代,对数据的处理提出更高的要求,传统....

  嗨, 我正在使用Virtex-& FPGA(415T)。 我想将100MHz PDP差分连接到MGTREFCLKP / N(...

  你好我在JT模型中使用icap回读FPGA(xc7a200t)状态寄存器,但它不起作用。有人告诉我它有什么问题吗?icap CLK有什...

  【MYMINIEYE Runber蜂鸟版免费试用连载】软件的搭建

  首先安装软件Gowin_V1.9.6Beta下载地址:然后去官网申请license,加载收到的gowinX...

  当完成最大值表求取完成后,接着对标志符存储器进行初始化。最后就可以进行正式编码了。编码的算法主流程请....

  FPGA工艺尺寸的进步和更加灵活的设计配置、以及基于FPGA的系统取得的进步已经使FPGA制造商充满....

  随着速率和带宽的提高,采集的速率也相应地不断提高。如今模数转换器的速率已经达到1 GS/s。....

  近年来,随着电子技术的飞速发展,复杂可编程逻辑器件(CPLD)得到了越来越广泛的应用。CPLD由一个....

  目前,美国有两家生产专用接口芯片,CYPRESS的IT9010系列和Intece Te....

  示波器测量频率和相位的方法很多, “李沙育图形法”就是其中用得最多的一种。“李沙育图形法”又称波形合....

  采用StratixII系列的EP2S60FPGA芯片实现报文内容过滤算法研究

  可见,i上的hash函数可以通过i-1上的hash函数简单的算出。并且如果dij=di+1j....

  对实现FFT的工程,目前通用的方法是采用DSP、FFT处理电及FPGA。用DSP实现FFT的处理速....

  TMP411 ±1°C Prramble Remote/Local Digital Out Temperature Sensor

  TMP411设备是一个带有内置本地温度传感器的远程温度传感器器。远程温度传感器,二极管连接的晶体管通常是低成本,NPN或PNP型晶体管或二极管,是微,微处理器或FPGA的组成部分。 远程精度为1 C适用于多个设备制造商,无需校准。双线串行接口接受SMBus写字节,读字节,发送字节和接收字节命令,以设置阈值和读取温度数据。 TMP411器件中包含的功能包括:电阻取消,可编程非理想因子,可编程分辨率,可编程阈值,用户定义的偏移寄存器,用于最大精度,最小和最大温度器,宽远程温度测量范围(高达150C),二极管故障检测和温度警报功能。 TMP411器件采用VSSOP-8和SOIC-8封装。 特性 1C远程二极管传感器 1C本地温度传感器 可编程非理想因素 电阻取消 警报功能 系统校准的偏移寄存器 与ADT7461和ADM1032兼容的引脚和寄存器 可编程分辨率:9至12位 可编程阈值限...

  TMP468器件是一款使用双线 C兼容接口的多区域高精度低功耗温度传感器。除了本地温度外,还可以同时多达八个连接远程二极管的温度区域。聚合系统中的温度测量可通过缩小频带提升性能,并且可以降低电板复杂程度。典型用例为监测服务器和设备等复杂系统中不同处理器(如MCU,GPU和FPGA)的温度。该器件将诸如电阻抵消,可编程非理想性因子,可编程偏移和可编程温度限值等高级特性完美结合,提供了一套精度和抗扰度更高且稳健耐用的温度解决方案。 八个远程通道(以及本地通道)均可编程,设定两个在测量的相应温度超出对应值时触发的阈值。此外,还可通过可编程迟滞设置避免阈值持续切换。 TMP468器件可提供高测量精度(0.75C)和测量分辨率(0.0 625C)。该器件还支持低电压轨(1.7V至3.6V)和通用双线制接口,采用高空间利用率的小型封装(3mm×3mm或1.6mm×1.6mm),可在计算系统中轻松集成。远程结支持-55C至+ 150C的温度范围。 特性 8通道远程二极管温度传感器精度:0.75&...

原文标题:对话雪湖科技王韵—火山口湖—FPGA已经到了火山口 网址:http://www.hzdaili.cn/xingzuomima/2020/0801/12824.html

Copyright © 2002-2020 有口皆碑星座网 www.hzdaili.cn 版权所有  

联系QQ:1352848661