AI訓練數據,不僅浩如煙海,而且種類龐多。置身其中,很容易茫然迷失,既無法全面洞察這些數據的廬山真面目,更不知該如何進行數據配比、選擇。
為了解決上述問題,聯想研究院人工智能實驗室和北京大學機器感知與智能教育部重點實驗室副主任,大數據分析與應用技術國家工程實驗室常務副主任袁曉如老師及其團隊合作,聯合打造了業界首個數據“地形圖”可視化展示技術。
傳統的可視化大部分為表格或者單純的詞云分布,看不出數據集里數據的全貌,更看不到數據之間的關系。而此次聯想和北大攜手研發的數據“地形圖”可視化展示技術,通過數據特征提取、可視化降維分析、高頻詞高頻實體分析、數據高效檢索、自動采樣等技術,讓數據以“地形圖”的形式直接呈現在用戶面前。有了“地形圖”的指引,AI訓練者可在海量數據間自由穿梭,高效快捷地了解數據、洞察數據背后的秘密。同時,該技術基于內置的層次化模型、漸進式文本標注框架和可視化系統,用戶可根據需要逐級建立自己的分類,并形成對應的可視化視圖,從而逐步探索自己的數據。
數據“地形圖”中的每一個目標點即代表一條數據,海量數據顯示時,會根據數據的分布密度自動進行下采樣,采樣后呈現的數據,依然保持數據集原有各區域的相對分布密度。通過對“地形圖”的放大、縮小、漫游,可詳細查看每一條數據。
![校企合作新成果!聯想攜北京大學,推出首個可視化數據“地形圖”](http://www.1jiwang.com/uploads/image/2024/0716/22220132200.png)
“地形圖”上點綴的一個個“地標”,是數據中出現的高頻詞和高頻實體,根據統計頻次和來源出處,高頻詞和高頻實體以不同的大小形態和不同的地理位置在“地形圖”上以詞云形式展示。有了這些詞云“地標”的指引,用戶既能快速了解數據集中數據所屬的大致領域、類型等,也可便捷查找到感興趣的數據,從而在海量數據中漫步也不會迷路。
在地理學科中,有一個“等高線”的概念——把地面上海拔高度相同的點連成閉合曲線,并垂直投影到一個水平面上,再按比例縮繪在圖紙上就獲得了等高線。
等高線提供了關于地形的重要信息,包括地形的難易程度、山丘與洼地的區分、山脊和山谷的位置等。通過等高線,可以判斷地形的陡峭或平緩。例如,等高線越密集,表示地形越陡峭;等高線越稀疏,則表示地形較為平緩。此外,等高線還能幫助識別特定的地形特征,如山頭、洼地、鞍部、絕壁和懸崖等。
在我們的“地形圖”上,也有條條“等高線”,但它們代表的是數據的分布密度,同一等高線覆蓋區域數據的分布密度相同。每一條等高線圍成的封閉區域,從某種粒度上屬于同一“山系”,可以視為同一類型。中間最小一圈等高線為“山頂”,是數據密集區域,其中分布的數據均為對應類型的典型數據。對應不同山頂的最外圍等高線之間為“山谷”,“山谷”中數據稀疏,而且其中的數據多為邊緣數據,或者為跨類型數據。不論“山頂”還是“山谷”都有可能存在“寶藏數據”哦。為了方便從不同區域選取數據,“地形圖”上還提供了套索和矩形選擇工具,可從任意區域,以任意形狀選取數據。
![校企合作新成果!聯想攜北京大學,推出首個可視化數據“地形圖”](http://www.1jiwang.com/uploads/image/2024/0716/222203K131.png)
數據的分類維度是多樣的,我們的“地形圖”上還提供了交互式探索功能,用戶通過選擇或自定義不同的高頻詞和高頻實體,從自己需要的維度,創建多種不同層級的不同類型。系統會自動從數據集中高效檢索出包含相同或相似高頻詞、高頻實體的數據,在“地形圖”上進行獨立展示,或者在原有底圖上疊加展示,從而突出顯示自己感興趣的數據。
這種數據“地形圖”可視化技術現在已經成為聯想煉AI大師產品的一個功能。煉AI大師由聯想研究院人工智能實驗室打造,是聯想AI發展的重要引擎,為聯想自研AI算法的開發提供了重要支撐。它是一個專業的算力管理和一站式AI開發及運營平臺,能夠為AI專家提供靈活高效的算力管理功能,能為以數據為中心的開發者提供一整套數據可視化、清洗、標注、模型訓練、壓縮、蒸餾、評估、推理以及大模型應用等全鏈條服務。
煉AI大師已經在金融、制造、交通、教育等領域有實際落地案例,為客戶在硬件算力和算法開發人員之間搭建了一座便捷的橋梁,成倍提升了客戶算力的利用率,為客戶開發用于自己業務的AI算法提供了有力支持,大幅提升了AI開發及運營效率。