近期,工業(yè)和信息化部等八部門聯(lián)合印發(fā)《物聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施建設(shè)三年行動(dòng)計(jì)劃(2021—2023年)》,明確到2023年底,在國(guó)內(nèi)主要城市初步建成物聯(lián)網(wǎng)新型基礎(chǔ)設(shè)施,物聯(lián)網(wǎng)連接數(shù)突破20億。這一數(shù)字背后,意味著更加龐大的數(shù)據(jù)規(guī)模。在物流領(lǐng)域同樣如此,隨著行業(yè)的發(fā)展,無(wú)論車聯(lián)網(wǎng)規(guī)模還是不同規(guī)模物流中心內(nèi)智能設(shè)備的接入量都在大幅增加。面對(duì)隨之而來(lái)的具有時(shí)效性強(qiáng)、實(shí)時(shí)數(shù)據(jù)量大等特點(diǎn)的海量數(shù)據(jù),如何實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和處理至關(guān)重要。
基于此,各種涵蓋數(shù)據(jù)采集、存儲(chǔ)、查詢、分析和計(jì)算等功能的物聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)開(kāi)始不斷涌現(xiàn),北京濤思數(shù)據(jù)科技有限公司(以下簡(jiǎn)稱“濤思數(shù)據(jù)”)便是其中之一。但是,不走尋常路的濤思數(shù)據(jù),不僅摒棄傳統(tǒng)基于Hadoop生態(tài)的搭建方式,推出專為時(shí)序空間大數(shù)據(jù)設(shè)計(jì)的時(shí)序數(shù)據(jù)庫(kù)平臺(tái),更是以開(kāi)源的方式,突破行業(yè)傳統(tǒng)思維,開(kāi)創(chuàng)了一條大膽創(chuàng)新探索之路,成為時(shí)序數(shù)據(jù)領(lǐng)域炙手可熱的標(biāo)桿企業(yè)。
活力四射的濤思數(shù)據(jù)團(tuán)隊(duì)
與濤思數(shù)據(jù)創(chuàng)始人陶建輝的初次會(huì)面,剛好在一場(chǎng)大雪之后。突然而至的大雪一夜之間便褪去了北京絢麗多彩的秋色,但雪后碧藍(lán)的天空,光禿的樹(shù)枝,與濤思數(shù)據(jù)所在的望京CBD設(shè)計(jì)別致的建筑群相互映襯著,倒也具有別樣的美。大自然總是充滿神秘莫測(cè)的變化,而對(duì)于軟件行業(yè)出身的陶建輝來(lái)說(shuō),最熟悉的卻莫過(guò)于變化。軟件行業(yè)可以說(shuō)是技術(shù)更新?lián)Q代速度最快的行業(yè)之一,就拿App來(lái)說(shuō),其平均壽命大概只有10個(gè)月。想做一款“長(zhǎng)命”的基礎(chǔ)性軟件產(chǎn)品的念頭,很久之前就開(kāi)始在陶建輝的腦中萌生。最終,兩方面的原因堅(jiān)定了他的信念。
一是蓬勃的市場(chǎng)需求。隨著互聯(lián)網(wǎng)的發(fā)展,特別是通訊成本的急劇下降,各式各樣的數(shù)據(jù)被采集并發(fā)送到云端,數(shù)據(jù)量呈現(xiàn)爆炸式地增長(zhǎng)。“10年前,你很難想象,幾乎每輛車、每臺(tái)設(shè)備都在源源不斷地產(chǎn)生數(shù)據(jù);現(xiàn)在,這一切都在發(fā)生;未來(lái),這一趨勢(shì)還將加速。工業(yè)領(lǐng)域在傳統(tǒng)的實(shí)時(shí)監(jiān)控技術(shù)上,各種大數(shù)據(jù)分析技術(shù)、特別是人工智能技術(shù),讓采集的大數(shù)據(jù)產(chǎn)生了巨大的商業(yè)價(jià)值,催生了一個(gè)前所未有的市場(chǎng)。”他表示。
二是技術(shù)的相對(duì)落后。他進(jìn)一步分享道:“相對(duì)于數(shù)據(jù)量的快速增長(zhǎng),數(shù)據(jù)處理的技術(shù)卻相對(duì)落后。雖然市場(chǎng)上已經(jīng)有從存儲(chǔ)、計(jì)算到分析較為完整的大數(shù)據(jù)處理框架,包括各種免費(fèi)開(kāi)源系統(tǒng),但需要耗費(fèi)大量的存儲(chǔ)空間和計(jì)算資源。一個(gè)運(yùn)營(yíng)商光存儲(chǔ)查詢半年的上網(wǎng)記錄就需要使用數(shù)千臺(tái)服務(wù)器,而且還需要不斷擴(kuò)容。因此海量數(shù)據(jù)的增長(zhǎng)對(duì)技術(shù)提出了更大的挑戰(zhàn),也給我們這些技術(shù)極客們提供了一個(gè)巨大的機(jī)會(huì)。”
如何彌補(bǔ)現(xiàn)有技術(shù)的缺陷,充分滿足龐大的市場(chǎng)需求,成為陶建輝接下來(lái)要考慮的重點(diǎn)。在對(duì)整個(gè)物聯(lián)網(wǎng)和大數(shù)據(jù)生態(tài)進(jìn)行研究后,他發(fā)現(xiàn),通用大數(shù)據(jù)方案通常會(huì)將開(kāi)源的Kafka、Redis、HBase、MongoDB、Cassandra等大數(shù)據(jù)軟件拼裝起來(lái),利用集群來(lái)處理海量數(shù)據(jù)。因涉及多種系統(tǒng),開(kāi)發(fā)效率低、運(yùn)行效率差、運(yùn)維復(fù)雜、應(yīng)用推向市場(chǎng)慢等問(wèn)題頻發(fā)。對(duì)于數(shù)據(jù)采集量巨大的物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)等行業(yè),傳統(tǒng)的通用大數(shù)據(jù)方案更加難以為繼。而通過(guò)存儲(chǔ)結(jié)構(gòu)的優(yōu)化則可以大大提升性能。海量時(shí)序空間數(shù)據(jù)處理(從采集、存儲(chǔ)、查詢、計(jì)算到分析)無(wú)疑是個(gè)巨大的機(jī)會(huì)。正是在此背景之下,2017年6月濤思數(shù)據(jù)正式成立,隨后,物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)TDengine應(yīng)運(yùn)而生。
“作為一款基礎(chǔ)性軟件,TDengine就好比一塊小小的磚頭,無(wú)論整個(gè)軟件世界如何變化,迭代,若干年后它依然可以發(fā)揮價(jià)值,如此我便很知足了。”陶建輝笑著補(bǔ)充道。盡管濤思數(shù)據(jù)成立已經(jīng)4年多了,但在回憶公司創(chuàng)立過(guò)程時(shí),他的臉上依然滿是似乎創(chuàng)業(yè)者初期才有的激情與昂揚(yáng)。
濤思數(shù)據(jù)自 2017 年成立以來(lái)獲獎(jiǎng)無(wú)數(shù)
TDengine定位是物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái),即時(shí)序數(shù)據(jù)處理平臺(tái),其核心是將時(shí)序數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)操作合一透明,同時(shí)具備緩存、數(shù)據(jù)訂閱、流式計(jì)算、消息隊(duì)列等功能,為物聯(lián)網(wǎng)數(shù)據(jù)處理提供全棧解決方案。
TDengine 時(shí)序數(shù)據(jù)處理平臺(tái)
所謂時(shí)序數(shù)據(jù),即帶時(shí)間標(biāo)簽的數(shù)據(jù),指按照時(shí)間的順序變化、時(shí)間序列化的數(shù)據(jù)。陶建輝通過(guò)對(duì)物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行調(diào)研,總結(jié)出這類數(shù)據(jù)的十大特征:
(1)所有采集的數(shù)據(jù)都是時(shí)序的;
(2)數(shù)據(jù)都是結(jié)構(gòu)化的;
(3)一個(gè)采集點(diǎn)的數(shù)據(jù)源是唯一的;
(4)數(shù)據(jù)很少有更新或刪除操作;
(5)數(shù)據(jù)一般是按到期日期來(lái)刪除的;
(6)數(shù)據(jù)以寫操作為主,讀操作為輔;
(7)數(shù)據(jù)流量平穩(wěn),可以較為準(zhǔn)確的計(jì)算;
(8)數(shù)據(jù)都有統(tǒng)計(jì)、聚合等實(shí)時(shí)計(jì)算操作;
(9)數(shù)據(jù)一定是指定時(shí)間段和指定區(qū)域查找的;
(10)數(shù)據(jù)量巨大,一天的數(shù)據(jù)量就超過(guò)100億條。
針對(duì)這些特點(diǎn),TDengine定義了創(chuàng)新的時(shí)序數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),通過(guò)無(wú)鎖設(shè)計(jì)和多核技術(shù)讓數(shù)據(jù)插入和讀出的速度比現(xiàn)有通用數(shù)據(jù)庫(kù)高出10倍以上。除此之外,濤思數(shù)據(jù)還賦予了TDengine兩個(gè)核心技術(shù)創(chuàng)新點(diǎn),分別是“一個(gè)數(shù)據(jù)采集點(diǎn)一張表”以及“超級(jí)表”,保證TDengine插入和查詢效率最優(yōu)化,同時(shí)便于進(jìn)行聚合查詢、多維分析。
除了在產(chǎn)品性能、性價(jià)比上不斷提升,TDengine能夠形成更加廣泛的影響,還在于陶建輝一個(gè)大膽的決定——開(kāi)源。這一舉動(dòng)在國(guó)外軟件市場(chǎng)尚不足為奇,但在相對(duì)保守的國(guó)內(nèi)市場(chǎng)來(lái)說(shuō),無(wú)疑反響強(qiáng)烈。TDengine自2019年7月正式宣布開(kāi)源,2020年8月,宣布將集群版本開(kāi)源以來(lái),所獲成績(jī)喜人,在開(kāi)源社區(qū)GitHub(世界上最大的代碼托管平臺(tái))已收獲17k Stars。在資本市場(chǎng),濤思數(shù)據(jù)也備受關(guān)注,近兩年已經(jīng)先后獲得近千萬(wàn)美元的Pre-A輪融資、1000多萬(wàn)美元的A輪融資以及4700萬(wàn)美元的B輪融資。
在陶建輝看來(lái),開(kāi)源是中國(guó)軟件走向世界的最好捷徑。在目前的這些成績(jī)之外,陶建輝內(nèi)心始終有一個(gè)堅(jiān)定的目標(biāo)——做時(shí)序數(shù)據(jù)領(lǐng)域的全球第一。“在基礎(chǔ)軟件領(lǐng)域,無(wú)論操作系統(tǒng)、數(shù)據(jù)庫(kù)、軟件開(kāi)發(fā)工具還是現(xiàn)在的大數(shù)據(jù)處理平臺(tái),幾乎都是美國(guó)公司的天下。在基礎(chǔ)軟件領(lǐng)域占有一席之地,是我們所有IT人的夢(mèng)想,更是一個(gè)國(guó)家科技實(shí)力的象征。”談及中國(guó)軟件的現(xiàn)狀他略顯遺憾,但是隨即恢復(fù)了對(duì)于未來(lái)發(fā)展的信心,“中國(guó)擁有全球最大的數(shù)據(jù)市場(chǎng),其采集的數(shù)據(jù)量和場(chǎng)景之多已經(jīng)超過(guò)美國(guó)。在中國(guó)市場(chǎng)成功的大數(shù)據(jù)產(chǎn)品,一定會(huì)被全球市場(chǎng)所接納。”
開(kāi)源不僅為濤思數(shù)據(jù)帶來(lái)了巨大的成功,為行業(yè)做出了很好的表率;對(duì)于中國(guó)軟件人才的培養(yǎng)來(lái)說(shuō),也具有非常積極的意義。
陶建輝表示,高校學(xué)生往往在跟導(dǎo)師做項(xiàng)目時(shí)才能夠接觸到源代碼,而各類開(kāi)放平臺(tái)上的開(kāi)源軟件也非常有限,但是隨著TDengine的開(kāi)源,學(xué)生可以免費(fèi)接觸到無(wú)數(shù)源代碼,這無(wú)疑是最好的學(xué)習(xí)機(jī)會(huì)和資源,會(huì)對(duì)中國(guó)軟件整體水平的提高起到積極的促進(jìn)作用。為了促進(jìn)大學(xué)生對(duì)開(kāi)源的認(rèn)識(shí)和理解,陶建輝先后在清華大學(xué)、復(fù)旦大學(xué)、重慶大學(xué)、西南大學(xué)、北京大學(xué)、中國(guó)人民大學(xué)、北京郵電大學(xué)和中國(guó)科學(xué)技術(shù)大學(xué)等20多個(gè)高校,分享 TDengine的核心技術(shù),開(kāi)源背后的思考,鼓勵(lì)大學(xué)生積極參與到開(kāi)源建設(shè)中來(lái)。
值得一提的是,對(duì)于程序員來(lái)說(shuō),他們往往是默默地改變著大家生活的一群人,隨著軟件的開(kāi)源,他們從產(chǎn)品背后開(kāi)始走出來(lái),和更廣泛的人群有了交流和互動(dòng),在相互促進(jìn)之下,不僅可以進(jìn)一步提升專業(yè)能力,用代碼打造屬于自己的“名片”,同樣也有利于行業(yè)整體水平的提高。這些在陶建輝眼中,都是比企業(yè)成功更加有意義、有價(jià)值的事情。
時(shí)序數(shù)據(jù)的處理,是一切數(shù)字化、智能化的基礎(chǔ)。在TDengine廣泛的服務(wù)領(lǐng)域中,物流是非常重要的部分。并且隨著物流行業(yè)的快速發(fā)展、自動(dòng)駕駛等技術(shù)的升級(jí)和愈加廣泛的應(yīng)用,對(duì)時(shí)序數(shù)據(jù)處理的需求也在不斷擴(kuò)大。
“在物流領(lǐng)域最典型的應(yīng)用如物流車輛的實(shí)時(shí)位置和運(yùn)行軌跡數(shù)據(jù),以及物流機(jī)器人、穿梭車等移動(dòng)裝備的位置、電池狀態(tài),以及路徑規(guī)劃、環(huán)境監(jiān)測(cè)、軌跡追蹤等等數(shù)據(jù),通過(guò)TDengine,我們可以實(shí)現(xiàn)用更小的空間存儲(chǔ)更加海量的數(shù)據(jù),同時(shí)在最短的時(shí)間,將用戶需要的數(shù)據(jù)進(jìn)行調(diào)用,以及分析計(jì)算等,為其他更多功能的實(shí)現(xiàn)提供支撐。”他針對(duì)TDengine在物流領(lǐng)域的應(yīng)用進(jìn)行了說(shuō)明,并進(jìn)一步舉例,國(guó)內(nèi)某快遞巨頭旗下互聯(lián)網(wǎng)科技公司,由于其原來(lái)采用的時(shí)序數(shù)據(jù)庫(kù)OpenTSDB性能較差、占用存儲(chǔ)空間多、對(duì)大跨度高頻詞的查詢支持不夠等原因,將目光轉(zhuǎn)向了TDengine,在將大數(shù)據(jù)監(jiān)控平臺(tái)遷移到TDengine之后,其所需服務(wù)器從之前的21臺(tái)減少到3臺(tái)。此外,TDengine在部署、寫入速度、查詢速度、存儲(chǔ)效率、緩存、流式計(jì)算等方面均凸顯出明顯的優(yōu)勢(shì)。此外,如在煙草等行業(yè),隨著企業(yè)業(yè)務(wù)的發(fā)展,生產(chǎn)中需要監(jiān)測(cè)的指標(biāo)從幾萬(wàn)個(gè)增加到幾十萬(wàn)甚至百萬(wàn)個(gè)以上,TDengine的應(yīng)用有利于企業(yè)提升數(shù)據(jù)存取效率、打破傳統(tǒng)數(shù)據(jù)孤島、提升數(shù)據(jù)有效利用率。
“技術(shù)是濤思數(shù)據(jù)的立身之本,通過(guò)技術(shù)創(chuàng)新潛心研發(fā)極致的產(chǎn)品,讓技術(shù)創(chuàng)造價(jià)值是我們努力的方向。”在整個(gè)交流過(guò)程中,從他不時(shí)爽朗的笑聲中,聽(tīng)得出他對(duì)濤思數(shù)據(jù)未來(lái)發(fā)展的極大信心;從他始終富有激情且面帶微笑的臉上,也看得出他對(duì)手中事業(yè)的熱愛(ài)。“一般來(lái)說(shuō),程序員的黃金年齡是25~35歲,像我這樣50歲還在寫代碼的程序員已經(jīng)是稀有動(dòng)物了。”陶建輝自嘲到,“但是,我還會(huì)繼續(xù)寫,寫一輩子。”陶建輝站在大大的落地窗前,窗外視野開(kāi)闊,陽(yáng)光正好。