解密騰訊雲ChatBI:智能數據分析的未來

架構互聯高可用 2024-06-08 12:56:42

近期,在GIAC及騰訊技術開放日現場,小編有幸采訪了騰訊雲大數據應用産品中心總經理陳凡凡。陳總詳細解答了我們提出的多個大數據領域問題,進一步向我們揭示了這款基于大模型的新一代智能商業分析解決方案的獨特之處。

1、陳總您好,很高興能采訪到您,請簡單介紹一下自己以及您的從業經曆。

陳凡凡:您好,我目前在騰訊雲負責雲上大數據應用産品的工作,包括我們這次即將推出的産品——騰訊雲BI智能助手ChatBI。我2011年加入騰訊,一直從事ToB業務的相關工作,參與過互動廣告、一部手機遊雲南、央視頻等平台産品規劃和研發等工作。

2、請您爲我們詳細解讀一下ChatBI的設計理念及其在當前商業智能領域中的意義?

陳凡凡:非常榮幸能夠分享我們的想法。ChatBI的設計理念源于對當前數據分析流程的深度洞察。我們認爲,數據分析不應僅限于數據科學家或技術人員,而應成爲每個業務人員的工具。想象一下,如果我們能夠像和朋友聊天一樣與數據分析工具進行交流,那會是多麽輕松愉快的事情。這就是ChatBI背後的核心理念——將複雜的數據分析流程變得簡單、直觀,就像日常對話一樣。

因此,我們開發了ChatBI,它通過自然語言處理和大型語言模型,使得用戶能夠以最自然的方式——即對話——來獲取他們所需的數據洞察。在當前BI領域,ChatBI代表了一種從複雜到簡單、從技術驅動到業務驅動的轉變。

3、您提到ChatBI通過自然語言處理簡化了數據分析過程,ChatBI在技術實現上面臨了哪些挑戰?

陳凡凡:ChatBI技術在實現過程中面臨多種挑戰,這些挑戰源于自然語言的複雜性、數據分析的專業性以及系統設計的綜合性。以下是ChatBI技術面臨的主要技術挑戰點:

口語化輸入理解:用戶在與ChatBI交互時,傾向于使用口語化、非結構化的語言表達查詢需求。這增加了理解用戶意圖的難度,因爲口語化表達往往含糊且歧義較多。如用戶往往會進行“賺了多少錢”等較爲口語化的表達,此時需要ChatBI能理解含義並查詢數據表中的“利潤”字段;

業務領域知識缺失:ChatBI需要理解特定行業的術語和概念,缺乏這一領域的知識會導致誤解用戶意圖,生成不准確的數據分析結果。如用戶會咨詢到:2023年12月份大訂單有多少單?這裏的大訂單在用戶的業務場景裏代表訂單金額在1萬元以上的訂單,才是大訂單。

NL2SQL:在智能問數的過程中,核心能力在于將用戶非結構化的自然語言輸入轉換爲數據庫層面的可執行結構化查詢語句(SQL),不同數據庫在SQL層面也有較大的差異。

4、針對這些挑戰,ChatBI采取了哪些技術方案來應對?

陳凡凡:我們在騰訊混元大模型的基礎上,微調訓練除了大數據領域的專有模型,讓大數據模型處理這些和數據交互的複雜邏輯,同時針對這些挑戰,我們通過以下幾個方面去解決:

意圖識別:ChatBI的意圖識別模塊會分析用戶的輸入,我們經過大量的數據訓練,當用戶提出問題時,模型可以根據問題識別用戶想要進行的數據分析類型,還是一些閑聊,針對數據分析類問題會持續對話,非數據類分析會提示用戶和數據分析無關等。

意圖澄清:當用戶以自然語言提出問題時,ChatBI首先借助大語言模型進行詞法分析、句法分析和語義分析等步驟,來理解用戶的查詢意圖。這包括識別關鍵詞、實體(如日期、數值)、以及問題的具體需求(比如求和、比較等),當用戶問題過于模糊時,還會觸發對意圖的追問,讓用戶補充問題內容。如咨詢一個問題:騰訊雲BI收入多少,這裏模型會考慮到缺失時間這個關鍵指標,會觸發用戶補充信息的對話,讓用戶輸入時間

查詢轉換:理解了用戶的查詢意圖之後,ChatBI會將自然語言查詢轉換爲數據庫層面的可執行結構化查詢語句(SQL)。這一過程可能涉及到複雜的邏輯和多步驟的查詢構建。

結果生成:執行SQL查詢後,ChatBI會獲取數據庫返回的結果,並將其轉化爲圖表、報告等形式的可視化數據,以便用戶直觀地理解分析結果。

交互式反饋:如果用戶對結果有疑問或需要進一步的分析,ChatBI可以繼續通過對話形式提供交互式反饋和深入分析。

5、用戶在使用ChatBI的時候,經常會問到一些業務相關的問題,這裏如何才能讓ChatBI能力理解這些業務知識並做出回答?

陳凡凡:大模型在回答問題的時候,很難對用戶的業務知識有充分的理解,這裏我們借助RAG增強檢索能力,提前給大模型找到關鍵知識,讓大模型基于這些知識回答,就可以給出准確的回答了,具體實現方案:

知識准備:首選,用戶根據自己的業務場景,在我們ChatBI平台上,導入excel方式或手動錄入一些業務場景知識,如某個指標的定義,專業術語的業務定義,我們會把這些知識內容通過向量轉換的方式存入到向量數據庫中。

上下文融合:當用戶發起問題的時候,ChatBI檢索知識庫信息隨後與用戶的原始查詢一起被送入生成模型。在這個過程中,模型學習如何將檢索到的外部信息與用戶的查詢上下文結合起來,以生成更加准確和豐富的回答。

生成輸出:最後,基于融合了檢索信息和用戶查詢的上下文,大模型生成回答或執行任務。這種生成機制不僅能夠提供准確的信息,還能夠保證回答的連貫性和邏輯性,特別適合于需要結合大量背景知識進行分析的複雜任務。

6、大數據領域模型是如何訓練出來的?

陳凡凡:我們是在騰訊混元大語言模型的基礎上,進行微調訓練得到的大數據領域模型,模型構建是一個多層次、多維度的複雜過程,我們通過以下幾點實現:

多源數據整合:在基座模型的基礎上,訓練數據的收集涵蓋了大數據領域的各個方面,文檔數據如大數據技術文檔、iwiki等,讓大模型對大數據概念和技術有了深入理解;代碼數據幫助大模型理解編程邏輯和軟件架構,而運維數據則讓大模型理解實際運行環境中的系統性能和穩定性信息。

領域知識深化:任務診斷分析數據和專家經驗數據的加入,使得大模型能夠學習到大數據任務執行過程中的深層邏輯和決策過程。這些數據不僅包含了具體的操作步驟,還蘊含了專家在面對複雜問題時的思考方式和解決策略,極大地豐富了大模型的知識庫。

BI業務場景數據:我們訓練大模型理解BI,了解BI的維度指標,以及BI裏的複雜計算邏輯,如同比、環比、下轉等,同時訓練大模型根據BI的指令生成不同的圖表出來,這樣當用戶自然語言輸入一個問題的時候,可以轉換成BI的指令,調用BI的現用能力輸出一個可視化圖表出來。

7、在安全性方面,ChatBI有哪些特別的考慮?

陳凡凡:安全是我們團隊特別重視的一項,我們公司也把數據安全放在第一位。我們設計了一種安全的讀取機制,該機制在數據處理時不直接讀取用戶的原始數據值。這種設計遵循最小必要原則,即模型只獲取完成分析所必需的最少信息。具體來說:

表頭信息獲取:ChatBI僅使用數據表的表頭信息來進行大模型分析,而不是敏感的數據內容。

SQL下發執行:分析過程生成的SQL語句會直接下發到用戶的數據庫中,由數據庫在本地執行查詢,確保客戶數據不離開其原始存儲環境。

圖表生成:數據庫查詢的結果直接用于生成圖表和報告,而不會暴露原始數據。

訪問控制:實施嚴格的訪問控制機制,只有授權用戶才能訪問數據,並且所有訪問都記錄在案,以便于事後審計。

8、ChatBI的出現會對數據分析行業哪些影響,會讓數據分析師失業嗎?

陳凡凡:首先ChatBI的出現不會讓數據分析師失業,ChatBI可以提升數據分析師的工作效率,ChatBI通過自動化和簡化數據分析流程,使得從提出問題到獲得答案的時間大幅縮短。這提高了整個行業的工作效率,讓數據分析師能夠更快地響應業務需求。另外,會降低使用者門檻,由于ChatBI允許用戶通過自然語言進行交互,這降低了進行數據分析所需的技術門檻。非技術背景的業務用戶也能夠輕松地獲取數據洞察,從而使得數據分析更加普及。

9、請介紹一下騰訊雲大數據未來的發展方向,包括技術更新、新産品推出或市場擴展等計劃。

陳凡凡:我們騰訊雲大數據致力于提供一個輕快、易用的智能大數據平台,助力企業實現數字化轉型。競爭優勢在于其強大的技術基礎、深厚的行業經驗、以及與騰訊生態的深度整合。我們會持續深耕自研,通過提供雲原生數據倉庫TCHouse、一站式開發治理平台WeData和數據湖倉一體化智能引擎TBDS,騰訊雲BI等,滿足不同行業客戶對大數據服務的多樣化需求。

騰訊雲大數據未來將繼續加大技術創新和産品叠代的力度,以保持其在市場的競爭力。技術更新方面,將繼續探索Data+AI,優化數據處理的效率和智能化水平。

參考閱讀

活動報名|5月24日,騰訊雲「數據管理」産品技術峰會議程公布

技術原創及架構實踐文章,歡迎通過公衆號菜單「聯系我們」進行投稿

0 阅读:0

架構互聯高可用

簡介:感謝大家的關注