近日,戈壁创投2022年投资峰会在线上举办,戈壁创投邀请LP及被投企业主理人等共同参会,一起分享收获、共探趋势、见证未来。2022年,国际环境复杂严峻、资本市场波动剧烈,叠加疫情带来的冲击,股权投资正面临前所未有的考验。在“危”与“机”纵横交错的环境中,戈壁创投持续保持自己有条不紊的投资节奏,努力寻找那些能够破局新生的伟大企业。

天谋科技创始人黄向东以《智能制造转型下的新一代物联网数据库》为题做了汇报演讲。他表示:在不同的工业领域,时序数据都能为工业企业创造出很大的利润增长点。时序数据在工业场景下的市场潜力非常大,并且正在从工业场景向其他的场景蔓延。

以下内容为黄向东演讲实录,由戈壁创投精编整理,有删减:

大家好,我是天谋科技黄向东,天谋科技是围绕Apache IoTDB这样一个开源项目来打造的,我们主要关注的场景是服务智能制造。

天谋科技主要围绕工业物联网场景,提供时间序列数据的管理和服务。去年底,公司拿到了来自红杉中国、考拉基金、戈壁创投、云智慧的近亿元融资,开始正式跑起来。创始团队主要来自于清华大学、UC Berkeley、微软、德国弗劳恩霍夫协会(Fraunhofer-Gesellschaft)、德国法兰克福能源集团等一批数据库核心技术科学家和工业资深专家。

团队在过去几年里,陆续积累了30多项与时序数据管理和分析相关的专利,这些专利也成为我们进一步发展的基础。我们的目标是通过时序数据库管理系统这种产品形态,帮助工业企业用户以及更广泛领域的用户,用更低的成本从数据中挖掘出更大的价值。

时序数据的价值

下面介绍一下智能制造转型升级的大背景下,时序数据的潜在价值。智能制造,或者说工业服务升级转型,在很多年前就被提出了。2012年,Gartner发布的白皮书中给出一条反微笑曲线,从中可以看出,随着服务型制造的不断成熟,生产型的制造比例呈下降趋势。在这个状态下,工业企业进一步发展,势必向服务型制造进行转型升级,中国的工业行业也走到了这样一个阶段。

为了完成服务型的制造转型升级,很重要的一点是要把数据的价值激发出来。其中一个耳熟能详的名词就是工业大数据。

工业大数据大致涵盖三种类型,一是工业信息化数据,包括PLM、CAD、CRM等不同的系统数据,简单来讲它是由人产生的数据;二是产业链跨界数据,比如雷暴、大风、沙尘等天气可能会导致工厂无法开工,这种数据其实是并不来自于工业本身,但是这些跨界数据会影响和制约工业生产;第三类数据是机器设备数据,工业中的主体,除了人以外就是机器,随着互联互通做得越来越好,机器设备现在能被感知和采集到的数据越来越多,这些数据能来表征机器设备运行状态是不是合理,是不是有安全隐患等等。

在三种类型的数据中,机器设备既是产生数据的主体,也是消费数据的主体。首先,由于机器设备上有大量的传感器,可以采集到设备自身的状态,所以这些机器设备本身成为产生数据的主体;同时,有了这些数据之后,我们就能对生产制造进行决策和判断,例如是否要适时调整来降低安全隐患,或者提高生产效能等等,因此它们也是消费数据的主体。

这类机器设备数据就是我们开篇说的时序数据,它表明了不同的设备在不同的时刻,各种各样的指标维度在发生什么样的变化。

这类数据的价值非常高,工业互联网的先行者通用电气(GE)公司2012年指出:“充分利用海量时序数据驱动工业创新、竞争和成长,是大数据技术为新工业革命带来的历史性机遇。”在不同类型的工业领域,时序数据都能创造出很大的利润增长点。

以电力行业为例,电力有发电、输配电、用电等不同环节,以前的自动化系统,可以在每个环节收集时序数据,但大多只用来做一些实时的监控,并不会去进一步地深度分析这些数据。而一旦我们对这些数据进行收集、存储和分析,新的价值点就产生了——可以做预测、做根因分析、削峰填谷、改善调度等等。比如我们可以利用风机历史数据对风功率曲线情况进行建模,获得风机迎风角和发电量的变化模式,判断是否需要进行对测风仪误差进行补偿。按照一个风场1.5万台风机计算,这一技术将给业主每年带来超过1.5亿元人民币的经济效益。

此外,在传统的制造业、智能交通设备等不同工业行业,时序数据的存储、分析、管理与应用,都能带来降本增效、预判并降低风险等实际价值。

总的来看,对于时序数据可以只监控不存储,也可以把采集到的时序数据全部存储下来进行挖掘分析,根据对时序数据管理程度由低到高,在其中挖掘的价值也是由低到高的。

如果只看最新的数据,可以做一些远程的运维、状态的监控;当收集一部分历史数据,就可以对一些设备做数字画像、健康评估、故障预测、备件调度等等,甚至可以从运维的表现反向推动设计工艺的改进。

数据管理的挑战

工业中机器设备上的时序数据管理,其实在有自动化设备的时候就已经出现了。

与现在的管理需求相比,唯一的变化是现在有了大量更轻量的设备,需要对这些数据做对应采集,同时需要的采集频率大幅提升、需要观测的指标数量大幅增加,对数据的管理能力,从原来的数万测点上升到数千万测点……并且只有将这些数据尽量全部存储下来,才有可能做到对它们进行最高价值的分析挖掘。

在此基础上,很多边缘侧的设备越来越智能,以前边缘侧的设备只承担了采集数据发往云端的角色,现在边缘侧设备也开始有智能化的应用需求,因此也要开始具备数据管理能力,随之而来的就是要去做端、边、云的协同。最后还涉及到数据存下来之后,怎么更好地做分析和挖掘,这是一些需求的变化。

我们研究的重点是工业场景,时序数据在工业场景的应用有它特殊的复杂性。比如虽然很多工业设备的使用周期很长,但现阶段设备的迭代升级速度很快,它上面可采集或者需要被管理的数据会不断发生变化。这种情况对于传统的数据库技术,管理起来就会比较复杂,我们为此专门开发了一批适配技术。

另外,很多工业设备的单体价值是非常高的,比如一架C919飞机,它在试飞的过程中有8万个测点需要收集;如果把一个电厂当做一个大型的设备,一个电厂就有几十万个指标需要去管理;我们最近做的石油石化行业,单是一个调度中心,可能就有百万个测点需要进行管理。海量的测点管理,就要求数据库应对复杂设备的建模能力要很强。

此外,传统关系数据库解决的是人产生的数据,而我们解决的是机器上产生的数据,机器产生数据的频率是非常高的,它可以每秒钟采集几千上万次,并且可以7* 24小时持续运作。这就最终导致机器数据会成为工业大数据的一个体量主体,同时也是价值主体。

当把数据收集、存储下来后,下一步要解决的就是怎么能让用户更好的去做数据的分析、挖掘、查询、使用。由于工业的场景过于复杂,或者工业的生产环境过于恶劣,我们收集到的数据可能是有偏差的,这种情况下,就要考虑如何提高数据分析的有效性,比如对数据进行对齐、进行缺失值的填充;再比如,数据到达的时间跟数据上的时间戳不一致,就会出现数据乱序到达的现象,而Apache IoTDB可以支持时间序列的乱序写入,帮助用户在这样一个现实场景下,依然能压缩到很低的成本,高效的把数据管理好,并实现快速查询。

做智能制造的基础设施

现在市面上的一些竞品系统或者解决方案在解决用户痛点上都存在一些问题。基于关系数据库,写入吞吐速率和压缩比低,模型较固化,不利于设备升级;基于键值数据库,压缩及查询不友好,部署运维复杂;而原生时序数据库在工业场景下性能不足。

而我们的目标就是给出新的解决方案,帮助工业用户去解决数据存储、查询和使用的难题,希望能够支撑住机器设备的海量数据读写,帮助用户以超低成本,持久化去存储这些数据,助力他们去深度的分析挖掘数据。我们的最终目标是做成智能制造的一个基础设施。

现在我们的产品形态正在外延,内核还是开源工业物联网时序数据库Apache IoTDB,

它的几大特点就是高吞度、高压缩、高可用以及面向物联网原生和端边云协同的一个产品形态。

天谋科技是2021年底成立的,但我们的技术其实从2011年就开始研发,到现在为止经过了超过十年的时间。从底层的数据文件,到上层的查询引擎,再到分布式架构,完全是我们自研的,此外,IoTDB产品也是我们团队去主导研发的,并成为了Apache顶级开源软件基金会下面唯一一个时序数据库项目。

依托清华的科研力量,我们在不断地创新新技术,并在数据库相关领域的顶级会议上持续发表新技术突破,确保在开源状态下依然保持技术的领跑。

从产品角度来说,我们是第一个也是目前唯一一个提出端边云协同架构的时序数据库,也是唯一一个专门为物联网定义数据模型和解决它们的存储、查询需求的数据库,它可以达到数千万点/每秒的写入性能和十倍甚至百倍的压缩率。

从用户角度来讲,我们希望通过IoTDB帮助用户利用数据来提质增效,降低数据的管理成本。在用户视角来看,首先它是开箱即用的,不依赖第三方系统和外部组件;第二,它可以在低成本之下提供高性能的读写能力;第三,它兼容了市场上已有的一些其他开源系统的数据,帮助用户尽可能便捷地把数据迁移过来;第四,它拥有丰富的数据处理生态;第五,它提供的是“端-边-云”一站式解决方案。

对于IoTDB数据库来说,除了功能之外,性能也很重要,在写入性能、实时数据监控和历史数据查询等维度,天谋都处于行业领先。

此外,我们也注意到很多工业用户,他们其实不愿意投资过多的IT设备去管理大量的工业数据,因此我们也非常注重数据的低成本存储压缩能力,并自研了一套数据存储格式。更进一步来说,用户如果只存储数据,数据是一个“成本中心”,而当数据能进行有效的查询和分析时,它就从“成本中心”转化为了“价值中心”,因此我们为用户提供了大量面向时序数据的查询能力,并实现数据的全流程管理,让数据治理工作变得简单。

从查询往下更深一步,就是数据的处理分析。我们为用户提供了一系列的分析算法包,包括异常检测、数据平滑、数据预测等工作的函数。同时我们也集成进来一些自研的时序数据计算能力,用户可通过自行开发、创建自定义函数来满足定制化的计算需求。

总的来讲,经过去年一年的建设,我们对于时序数据的处理能力,已经覆盖了数据采进来、存下去、即席查和批量分析这样不同的场景、不同的生命周期。同时在整个过程中,我们都允许用户把自己带工业机理的分析能力集成到我们的数据库里面,自定义计算逻辑。

最后讲一下端边云协同,一言以蔽之,我们打破了传统“把数据发到云端,让云端去处理”的模式,变成让数据在边缘端进行组织,将组织好的数据再发给云端,云端不需要二次组织就可以直接去使用。通过实验验证,我们发现在这样一个场景下,不管CPU还是网络开销,都能节省10倍以上。

当然,我们也配套了很多可视化工具和用户交互工具。此外,我们也在持续跟Apache大数据生态进行集成,跟很多开源以及闭源的大数据分析软件进行集成,这些集成的解决方案覆盖了采集、处理、分析、应用等不同阶段。

整体来说,IoTDB是我们的内核,以此为圆心,向外延伸出了很多对应的产品形态及周边辅助工具。

“天、空、地、海”全覆盖

公司成立一年来,我们服务了很多工业用户,涵盖了电力、能源、智能制造、工业互联网等各类行业,应用场景覆盖了“天、空、地、海”。天,和某卫星合作,解决卫星上的数据管理,借助天地网络将数据进行同步;空,帮商飞做C919试飞数据的管理,今年也在继续讨论如何进一步在飞机的边缘端进行数据管理;地面场景最多,工厂、车联网、气象等等;海,跟中船合作,支持生产场景高度复杂的船舶行业数据高效存储与查询。

在海外,我们在德国和博世等一些企业在合作,共同集成的产品在日本、新西兰、美国都有对应的用户。

具体案例上来说,在与上海地铁的合作中,我们用一台IoTDB替代掉它原来15台机器,并且将它原来3年200 TB的数据压缩存储到了16TB,在硬件投资成本大幅减小的同时,性能得到了大幅提升。

在交通领域,我们和长安汽车合作,基于Apache IoTDB构建网联车海量车况数据查询系统,目前IoTDB实现了三个月内单车400-500信号的数据高效查询,让同等硬件资源条件下诊断系统的数据查询效率从分钟级提升到秒级。

此外,我们今年跟博世进行了合作,博世今年推出了全新一代自动化平台-CtrlX,原来CtrlX不具备历史数据的管理能力,我们通过把IoTDB集成软件,使得它可以有历史数据的集成能力,现在我们也成为了博世力士乐的partner。

在工厂级的应用方面,我们和湖南中烟进行了合作,通过对车间数据、工厂数据和整个集团的设备数据管理,来帮助它们提升产能,降低坏包和物料损失。

找到开源与商业的平衡

整体来说,天谋还比较年轻,但是过去一年,我们注意到时序数据在工业领域的市场比我们一开始想象的还要大、来得还要快。所以现在一方面继续充分发挥开源社区的优势,第二方面也在快马加鞭投入到更适合直接交付的产品化过程中。

我们的项目本身就是从开源状态进入商业化进程的,在这个过程中,我们也一直在持续打造开源社区,社区活跃度、参与度和海外关注度都是非常高的。但我个人觉得如果一个团队希望它的开源项目真正的长期发展下去,并且慢慢成为事实标准,团队要么进入到商业化的状态,要么有一个商业化的外部力量去支撑它,只有这两种形式,这样一个开源的产品才有可能长期存活。

从我们的角度来看,一是注意到工业用户对时序数据的管理诉求在快速增长,二是内核技术都在我们团队,这种情况下单纯依靠外部商业化力量支撑是不足的。为此,我们选择了在机制上进行创新,形成了把项目进行商业化的道路,来保证我们能给用户和社会提供更好、更稳定、更持久的产品。

对于技术软件来说,从更符合市场规律的角度考量,我个人认为开源大概率是基础软件的一个必经之路,至少是一定要经过的路。对于是否永久性开源,可能不同人有不同的声音,但如果不经历开源,基础软件是很难进入到大众视野、尤其是被技术人员信服的。比如一个没有经历过考验的新数据库,会不会丢数据?够不够稳定?在这种质疑氛围下,开源可以带来很重要的背书,首先可以让更多上知道有这样一个产品,其次,社区里的大量成功案例能给一些观望的用户以信心。这是开源给技术软件带来的机会,是毋庸置疑的。顺便值得一提的是,这也是为什么我们选择Apache基金会的缘由之一,因为Apache基金会的目标是做企业级、生产级的开源软件。

开源和商业化其实是不矛盾的,原因有两点。第一,开源更多的是给团队提供了潜在客户的机会列表,给大家分享一个数据,我们在做22年12月3号IoTDB物联网生态大会的时候,在前期报名的1900多个人里,有百分之十几已经使用了IoTDB,百分之二三十的人正在进一步调研和准备使用;另外一个重要数据是,愿意选择商业化支持的比例已经超过50%,也就是说一个企业要用开源软件做生产系统,还是非常需要商业化支持的。所以,对2B产品来说,开源能做商业化的一个立身之本。

第二,我也留意到,很多企业讲投入开源只是一个口号,但这样做最后会使得开源对商业化的支撑力度变得很弱。要做成功的商业化,企业一定要对开源做真投入,尤其是不能过度压榨开源社区。综上来讲,开源它一定是商业化的一个很好的支撑点;如果想让开源能很好的支撑商业化,企业也确实必须要为开源真的做一些投入。