日前,國際數據庫頂級學術會議ICDE 2024 于荷蘭烏得勒支舉行。華為云GaussDB、GeminiDB及數據領域17篇論文入選,華為成為全球論文入選數量最多的廠商。華為愛丁堡研究所數據庫實驗室主任Nikolaos Ntarmos發(fā)表了題為”Huawei Cloud GaussDB, a Better Way to Database“的演講,向全球的學術機構和代表介紹了華為云GaussDB的技術和商業(yè)成果。
ICDE全稱為”IEEE International Conference on Data Engineering”(IEEE國際數據工程大會),與SIGMOD、VLDB 并稱數據庫領域三大頂會,是數據庫領域最權威的國際頂級學術會議之一,在國際上享有盛譽并具有廣泛的學術影響力。
ICDE收錄了各大研究機構以及科技企業(yè)在數據庫領域最前沿、頂級的研究成果。ICDE 2024是第40屆IEEE國際數據工程大會,華為17篇論文的入選,是華為科研團隊與外部團隊或組織友好合作共同努力的結果。下面將摘選華為在本次大會入選的部分論文。
GaussML: An End-to-End In-database Machine Learning System
《GaussML: An End-to-End In-database Machine Learning System》論文是由清華大學、華為和蘇黎世理工大學聯合共同完成,通過提升數據庫內機器學習算法訓練和推理的性能,深度滿足用戶實時性分析的訴求。該論文獲得大會評審組的高度評價,認為其提出了一個全新的機器學習引擎。
原生庫內機器學習框架,簡稱GaussML,將機器學習訓練作為執(zhí)行算子,利用數據庫并行和分布式能力,展示出超越業(yè)界同類產品10倍以上機器學習推理和訓練的性能優(yōu)勢,主要能力包括:
第一,論文首次提出數據庫內原生AI機器學習引擎的架構,機器學習算法訓練和推理融合在SQL執(zhí)行流程中,借助數據庫的優(yōu)化器、負載管理、并發(fā)處理、分布式并行能力,實現機器學習訓練和推理的極致高效;
第二,GaussML同時構建庫內AutoML能力,可以自適應進行參數調整,根據負載變化進行模型更正,設計一種端到端模型自動調優(yōu)的能力,簡化用戶調整模型參數代價,提升數據庫內模型的使用便利;
第三,GaussML通過在數據庫內置原生機器學習訓練和推理流程,實現端到端自動調優(yōu)能力,構建完整的庫內機器學習引擎,支撐客戶業(yè)務的智能實時分析。該框架通過提供SQL-like接口,簡化數據科學家使用機器學習訓練和推理代價,支持常用的機器學習算法,滿足絕大多數客戶使用。
綜上,論文中提出一種全新的機器學習引擎,在多個公開數據集上該引擎表現出卓越的高性能優(yōu)勢,向數據庫智能化發(fā)展上邁出了更遠一步。
GaussDB-Global: A Geographically Distributed Database System
《GaussDB-Global: A Geographically Distributed Database System》論文是華為技術團隊的研究成果。論文中提出了一種基于高精度時鐘同步方法的分布式事務處理方法,并構建了跨地域分布式的全球數據庫系統(tǒng)GaussDB-Global。該論文的主要實現:
第一,采用同步時鐘的去中心化方法,地理分布式數據庫系統(tǒng)解決了中心化事務管理器的性能瓶頸問題,實現了中心化的事務管理到去中心化分布式事務管理之間無縫過渡,提供了更加靈活、便捷的部署方式,實現一套集群全球化部署。
第二,在分片數據的遠程讀取和長距離日志傳送問題上,地理分布式數據庫系統(tǒng)支持在異步副本上讀取,強一致性,可調整的新鮮度保證,以及動態(tài)負載均衡。在跨地域集群上的實驗結果表明,與中心化基線相比,該方法提供了高達14倍的只讀性能,標準數據集TPC-C吞吐量高出50%以上。
QCFE: An Efficient Feature Engineering for Query Cost Estimation
《QCFE: An Efficient Feature Engineering for Query Cost Estimation》論文是由哈爾濱工業(yè)大學和華為團隊共同完成,通過提出了一個高效的特征工程方法(QCFE),解決了現有查詢語句評估時的特征工程問題,該方法在時間-準確性效率方面取得顯著改進。論文的主要貢獻包括:
第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略變量的影響,如數據庫旋鈕、硬件等,以提高查詢成本模型的準確性。
第二,設計了差異傳播特征減少方法,通過剪枝無效特征,進一步提高模型訓練和推斷效率。
第三,引入了簡化的SQL模板設計,以提高計算特征快照的時間效率。
第四,在廣泛的基準測試中,展示了QCFE相對于現有方法在時間-準確性效率方面的優(yōu)勢,包括TPC-H、job-light和Sysbench等。
綜上,該研究的創(chuàng)新點在于提出了一種有效的特征工程方法,能夠顯著改善查詢成本估算的時間和準確性。
TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation
《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》論文是由廈門大學、清華大學和華為共同研究,通過提出一個基于對抗性擾動的工作負載生成框架TRAP,解決了現有的index advisor的魯棒性評估問題。
TRAP框架能夠生成有效的對抗性工作負載,用于評估index advisor的魯棒性。在index advisor的評估方面,TRAP具有明顯優(yōu)勢。研究發(fā)現:
第一,通過對抗性工作負載的有效生成,可以準確評估index advisor的魯棒性,因為這些工作負載不會偏離原始工作負載,但可以識別由于工作負載漂移而導致的性能漏洞。
第二,為設計更具魯棒性的基于學習的index advisor,采用細粒度的狀態(tài)表示和候選剪枝策略可以提高性能。
第三,對于設計更具魯棒性的基于啟發(fā)式的index advisor,考慮索引選擇過程中的索引交互作用和多列索引的使用是至關重要的。
綜上,以上發(fā)現為index advisor的設計和評估提供了深刻見解,并強調了在實際應用中評估index advisor的重要性。
Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection
《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》論文的問世,是為了幫助時序數據庫通過提前感知異常來降低損失。通過設計了一個輕量的基于深度學習的時頻掩碼自編碼器異常檢測算法(TFMAE),展示了其在多個公開數據集上的良好性能。該論文被大會評審組高度評價,認為其提出了時序異常檢測的新范式,最終無需修改被ICDE 2024 直接錄用。
作為首篇采用時頻掩碼對比的時序異常檢測論文,論文研究圍繞以下三點進行:
第一,提出了基于時間域和頻率域掩碼的時間序列異常檢測對比準則,其代替?zhèn)鹘y(tǒng)重建誤差確定異常檢測閾值,這是一個不受分布偏移影響的判斷準則。
第二,提出了基于窗口的時間域掩碼策略和基于幅度的頻率域掩碼策略以消除序列中潛在的異常觀察和模式。因此,TFMAE 是一個抗異常偏置模型。
第三,五個真實世界數據集與兩個合成數據集上實驗表明,TFMAE 在檢測性能與速度方面均取得提升。
綜上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用時頻掩碼對比的時序異常檢測論文,對醫(yī)療、制造、金融等行業(yè)的廣泛應用,具有現實推動作用。
本次大會華為入選論文研究方向涉及AI4DB、時序數據庫、查詢優(yōu)化、數據庫內機器學習算法訓練和推理……如此多的科技成果得益于華為長期在數據庫前沿技術領域的探索和實踐,以及與全球頂尖學術機構共同解決數據庫領域世界難題,通過產、學、研、用深度融合,將前沿創(chuàng)新研究融入產品技術,構建健康的數據庫產業(yè)生態(tài),為客戶提供創(chuàng)新的、有競爭力的數據庫產品和服務。
未來,華為將在數據庫領域持續(xù)創(chuàng)新,持續(xù)深耕,引領行業(yè)發(fā)展走出新高度。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )