文 | 智能相對論
作者 | 葉遠風
在文件資源管理器地址欄輸入關(guān)鍵詞,按下回車后,系統(tǒng)開始了漫長的掃描過程,硬盤被“仔仔細細”一個個文件進行比照,然后慢吞吞把結(jié)果展示出來,只能等待,著急又無可奈何……
這是很多人使用PC端本地搜索時面臨的常態(tài)。
這肯定是不正常的,但長久以來,從操作系統(tǒng)廠商,到應用開發(fā)者,再到千千萬萬的普通用戶,都這么“湊合”地過著。
現(xiàn)在,有人站出來想要解決這個問題。
最近,騰訊電腦管家升級了本地搜索的新功能,試圖幫助PC端的用戶更好地進行本地搜索——這個“不起眼”而又是打工人頻繁接觸的地方,終于有人開始關(guān)心起來。
PC本地搜索“剪刀差”越來越大,卻深陷“技術(shù)漠視”
當前,PC本地搜索實質(zhì)上形成了一個能力與需求的“剪刀差”,且有不斷增大的趨勢:
一邊,是很多用戶的PC配置并沒有想象的高,例如Win 11已經(jīng)面世多年,但Win10仍然占據(jù)著主要的市場份額,占比接近7成,這其中舊款電腦預裝win10沒有進行升級是主要原因;
另一邊,全面數(shù)字化時代,普通用戶日常工作生活積累的數(shù)據(jù)量變得越來越大(日積月累的文檔、越來越高清的照片等等),本地搜索對電腦性能的壓力又變得越來越大。
這就需要一個產(chǎn)品,能夠在滿足需求的同時契合大部分用戶的硬件能力。然而,大環(huán)境上來看,整個PC應用發(fā)展所面臨令人無奈的“技術(shù)漠視”現(xiàn)象,也即,明明已經(jīng)有很多人看到了問題但沒有人去采取行動解決(個中原因說來話長,但客觀結(jié)果已經(jīng)注定),過去并沒有人來做這樣一件事。
在手機這些移動終端上,一旦出現(xiàn)卡頓、體驗差,操作系統(tǒng)廠商、應用廠商們會想方設(shè)法優(yōu)化、提升,并適應盡可能多的機器型號。而在PC上,出現(xiàn)包括搜索在內(nèi)的體驗問題,很多人第一反應是:怎么不去換個新電腦,提高一下配置(如裝高速固態(tài)硬盤)?而沒有人去質(zhì)問:為何都2025年了,到處都是“用戶至上”的理念,PC端卻還在逼著用戶去改變?
對本地搜索的慢、卡,業(yè)界似乎已經(jīng)“集體麻木”。
正是這個時候,騰訊電腦管家站了出來。
告別暴力窮舉、邁向智能導航,PC本地搜索體驗再進化
騰訊電腦管家在做的,就是用技術(shù)創(chuàng)新消弭“剪刀差”,讓更多PC端用戶能夠很好地利用本地搜索實現(xiàn)自己的檢索需求。
這首先表現(xiàn)在有限資源下實現(xiàn)資源效率最大化。
騰訊電腦管家的本地搜索是基于NTFS文件系統(tǒng),直接解析NTFS文件系統(tǒng)中的主文件表(MFT)(這是一個完整記錄了本地所有文件的基礎(chǔ)信息的隱藏文件),獲取包括文件名、大小、修改時間等元數(shù)據(jù)。
傳統(tǒng)操作系統(tǒng)搜索采用的是遞歸遍歷磁盤方式,通俗說就如同查戶口一家一家去敲門、找到了才算。而騰訊電腦管家的方式,是直接讀取硬盤系統(tǒng)(NTFS)內(nèi)部記錄所有文件信息的“總戶口本”(MFT),瞬間知道所有文件在哪、叫啥名。
這是一種底層解析方式,能夠大幅提升索引的速度和準確性,同時降低系統(tǒng)資源消耗。
這種方式,也附帶解決了文件實時變更感知的問題。
在傳統(tǒng)搜索中,如果文件發(fā)生了刪改,則需要過一段時間或者下次全盤掃才能發(fā)現(xiàn),即時性、準確性不足。而騰訊電腦管家充分利用了NTFS的UsnJrnl(文件變更日志)實現(xiàn)對文件增刪改等操作的實時感知,能夠?qū)崟r捕獲增刪改事件,避免全盤掃描的資源浪費,索引更新零延遲,確保搜索結(jié)果實時性。
這就好比系統(tǒng)有一個自帶的“變更小本本”(UsnJrnl),而騰訊電腦管家一直盯著“小本本”看,索引瞬間更新,搜出來的結(jié)果永遠是最新的。
除了方式上的創(chuàng)新,在能力上,騰訊電腦管家也在幫助用戶挖掘PC的潛力。
當下的PC端處理器都為多核處理器,多核協(xié)同能力是很多PC應用重點發(fā)力的方向(例如3A游戲提升多核性能降低對顯卡的需求)。騰訊電腦管家同樣如此,其在文件搜索環(huán)節(jié)創(chuàng)新采用多線程并發(fā)檢索機制,針對不同磁盤分區(qū)分配獨立線程,充分利用多核CPU資源——“人多力量大”,同時派好幾個“線程小工”去不同的區(qū)域找資料,這無疑能提升大規(guī)模文件檢索效率,深層目錄/大文件夾場景響應也會更快。
那種傳統(tǒng)搜索“一核工作,多核圍觀”的情況在這里不會再有。
由此,通過底層原生解析、實時變更感知、多線程優(yōu)化等創(chuàng)新技術(shù)手段,騰訊電腦管家解決了傳統(tǒng)文件檢索方案在性能、實時性和資源占用等方面的痛點,具備明顯的技術(shù)領(lǐng)先性和行業(yè)影響力。
值得一提的是,騰訊電腦管家這套產(chǎn)品架構(gòu)設(shè)計有良好的開放性和可擴展性,可以內(nèi)嵌到很多其他應用當中,目前其甚至對外提供有SDK供第三方使用。
而不止于搜索性能的提升,騰訊電腦管家還著手解決PC用戶在搜索體驗上的一些深度需求,這使得其能夠成功區(qū)別于Everything等常用的單一功能搜索軟件,具備更多創(chuàng)新價值。
這主要表現(xiàn)在三個方面。
1、隨意搜
很多用戶在搜索時,只記得文件名的一部分,寫不全,或者有特殊的關(guān)鍵詞匹配需求,傳統(tǒng)搜索的準確率不佳。
騰訊電腦管家讓用戶能夠隨心所欲“花樣搜”:支持模糊匹配(記不全也能搜)、前綴匹配(輸入開頭就行)、甚至正則表達式(高級用戶),還能智能處理中英文混輸、特殊符號,例如輸入“2024 報告”可能找到“2024年度總結(jié)報告.docx”,從而減少無效匹配,提升復雜關(guān)鍵詞的搜索準確率與速度。
2、內(nèi)容深入搜
用戶往往不滿足只搜索文件名,需要進行文件內(nèi)容的深入、精確搜索。騰訊電腦管家的本地搜索支持多種文檔內(nèi)容全文檢索精準,支持模糊匹配與多關(guān)鍵詞組合。
這其中牽扯很多細節(jié)技術(shù)。
首先是如何對文檔內(nèi)容進行解析。這方面騰訊電腦管家在內(nèi)容索引階段使用IFilter接口和自研的XML解析模塊,能夠自動解析并提取常見文檔格式(如PDF、Word、PPT、Excel等)的文本內(nèi)容,極大提升了多格式文檔的兼容性和解析效率。
解析后,是如何進行索引。騰訊電腦管家采用jieba分詞算法進行高效分詞,并對分詞結(jié)果進行去重處理,形成“文檔-詞列表”的對應關(guān)系集合,隨后,系統(tǒng)基于分詞結(jié)果反向建立“分詞-文檔列表”的倒排索引結(jié)構(gòu)。
這等于自己構(gòu)建了一個“關(guān)鍵詞地圖”,當用戶搜索文檔內(nèi)容時,直接“查地圖”就能瞬間找到所有相關(guān)文檔,不用再挨個打開文件去讀,速度極快,不僅提升了檢索性能,還顯著降低了系統(tǒng)資源消耗。
3、多模態(tài)搜
用戶日常需要搜索的內(nèi)容早已不只有文檔,各類圖片份額越來越大,一些創(chuàng)作類用戶可能日常主要需要的就是搜索圖片。
騰訊電腦管家在這方面支持內(nèi)容/人臉/OCR多維度搜索,如人臉聚類自動歸檔、OCR提取圖中文字等。
在AI模型的幫助下,騰訊電腦管家能夠識別圖片里有什么東西(物品分類,預訓練模型識別內(nèi)容)、是誰(人臉識別聚類,通過5點校正+特征向量提取+HDBSCAN聚類技術(shù))、甚至圖片里的文字(飛槳開源模型,OCR文字識別)。
如此,用戶就能搜“貓的照片”、“張三的照片”、“包含‘發(fā)票’文字的截圖”等等,多種模態(tài)搜索更加隨心所欲。
當然,這些創(chuàng)新背后還離不開騰訊電腦管家在文檔分類方面的技術(shù)探索,目前其已經(jīng)形成“快速瀏覽內(nèi)容-提取特征關(guān)鍵詞-關(guān)鍵詞云端AI大模型分析-智能判斷文檔類型”的智能文檔歸類過程,幫助提升檢索效率和質(zhì)量。
總而言之,在一系列技術(shù)創(chuàng)新下,騰訊電腦管家讓本地搜索徹底告別暴力窮舉,而正在成為用戶PC端上的智能導航,體驗得到了極大提升。
與數(shù)據(jù)親密接觸,隱私安全是最后一道關(guān)卡
任何技術(shù)創(chuàng)新除了解決舊有痛點,很多時候也引發(fā)新的擔憂,例如大模型的應用就帶來隱私安全的擔憂。
與用戶數(shù)據(jù)親密接觸,搜文檔內(nèi)容、識別圖片人臉,這些功能聽著好用,但一些用戶可能會擔心應用把私人文件內(nèi)容都上傳到服務器。而在騰訊電腦管家這里,這種擔心可以完全放下。
在提升搜索體驗的同時,騰訊電腦管家對用戶隱私安全也有完備的保障:
1、數(shù)據(jù)本地化處理——“活都在家干”,文件內(nèi)容解析、圖片人臉識別/OCR、文檔特征提取均在設(shè)備端完成,原始數(shù)據(jù)不上傳云端。
2、最小化數(shù)據(jù)傳輸——“只傳紙條不傳原件”,只有文檔智能分類這一步需要用到云端大模型,但上傳的不是文檔原文,而是電腦本地提取出來的幾個關(guān)鍵詞和文件名。
3、免第三方依賴——“不依賴外人”,文件索引的核心(讀MFT和UsnJrnl)直接用Windows系統(tǒng)自帶的機制,不依賴可能有風險的第三方軟件庫。
可以說,騰訊電腦管家既讓用戶找文件快如閃電(底層讀取+實時更新+多核并行),又讓用戶搜得又全又準(文件名花樣搜+文檔內(nèi)容挖得深+圖片看得懂),在整理文件上也更智能(AI幫忙分類),而最關(guān)鍵的是,做這些事的時候用戶的隱私文件安全有保障(關(guān)鍵操作本地做,敏感內(nèi)容不上傳)。
如此,用戶在電腦上找資料時遇到的煩心事都被考慮到,并且用技術(shù)手段進行解決。PC應用,也可以大膽談用戶體驗了。
*本文圖片均來源于網(wǎng)絡
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 沙漠里面造“三峽”,中國再讓歐美傻眼!
- 一句話可以生成三分鐘創(chuàng)意視頻,百度AI再進化
- 從暴力窮舉到智能導航,PC本地搜索被騰訊電腦管家“拯救”
- 真沒想到這輩子還有擔心世界首富的一天
- 中國在深海建能源“長城” 老美徹底坐不住了
- 榮耀Magic V5正式發(fā)布,8999元起,行業(yè)首個免費內(nèi)屏寶
- 榮耀Magic V5正式發(fā)布,8999元起,行業(yè)首個免費內(nèi)屏寶
- 首屆魔搭開發(fā)者大會舉辦,已服務全球超1600萬開發(fā)者
- 打造全球雙萬兆之城,上海電信如何有所作為?
- “無智聯(lián),不AI”品智聯(lián)接數(shù)據(jù)通信商業(yè)市場創(chuàng)新峰會成功舉辦
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。