最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

文檔序號:41945084發(fā)布日期:2025-05-16 14:02閱讀:10來源:國知局

本發(fā)明涉及人工智能大模型多模態(tài)分析,具體地說是一種基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)。


背景技術(shù):

1、在當(dāng)今大數(shù)據(jù)時代,信息的數(shù)據(jù)呈爆炸式增長,隨著信息技術(shù)在工作中不斷深入和廣泛的應(yīng)用,在實際工作中積累了海量的數(shù)據(jù)和信息,這些海量的數(shù)據(jù)和信息中蘊藏著大量有待發(fā)掘的信息??焖儆行У厮阉骱头治龊A繑?shù)據(jù)成為了許多企業(yè)和組織的重要需求,僅靠傳統(tǒng)的人工分析方法是遠遠不能滿足工作的實戰(zhàn)需求,必須有專門的分析工具幫助,通過有效的工具才能極大地提高的工作效率,減輕工作壓力。尤其在實際工作中,非結(jié)構(gòu)化數(shù)據(jù)要比結(jié)構(gòu)化數(shù)據(jù)豐富得多。如果不能對這些海量數(shù)據(jù)進行解析,就無法實現(xiàn)其巨大價值。在非結(jié)構(gòu)化數(shù)據(jù)中,文檔占大多數(shù),有效處理非結(jié)構(gòu)化文檔對管理其他類型的非結(jié)構(gòu)化數(shù)據(jù)也大有幫助。

2、大模型雖然在訓(xùn)練過程中學(xué)習(xí)了大量的知識,但是不具備長期記憶能力,對于低頻事件或者非常專業(yè)領(lǐng)域的知識,無法基于有限的訓(xùn)練數(shù)據(jù)進行準(zhǔn)確預(yù)測。對于開放領(lǐng)域內(nèi)的事實性問題有時會出現(xiàn)錯誤或模糊的答案,尤其設(shè)計具體數(shù)值,日期等細節(jié)時,通過借助外部的知識庫,模型可以直接檢索到權(quán)威、更新鮮的數(shù)據(jù),從而提高生成答案的準(zhǔn)確性。

3、故如何將非結(jié)構(gòu)化知識納入知識庫供知識庫工大模型檢索以及如何將圖片可視化展示到問答界面,提高知識的直觀性和可讀性是目前亟待解決的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的技術(shù)任務(wù)是提供一種基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì),來解決如何將非結(jié)構(gòu)化知識納入知識庫供知識庫工大模型檢索以及如何將圖片可視化展示到問答界面,提高知識的直觀性和可讀性的問題。

2、本發(fā)明的技術(shù)任務(wù)是按以下方式實現(xiàn)的,一種基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法,該方法具體如下:

3、數(shù)據(jù)治理:通過數(shù)據(jù)提取技術(shù)提取并保存非結(jié)構(gòu)化文檔中的文本和圖片,同時使圖片與文本對應(yīng)信息與非結(jié)構(gòu)化文檔中信息一致;

4、搭建知識庫:搭建存儲數(shù)據(jù)治理后的非結(jié)構(gòu)化文檔的文本信息的知識庫;

5、檢索問答及可視化展示:基于大模型對提問問題采用向量化檢索技術(shù)從搭建好的知識庫中獲取符合要求的答案,并經(jīng)過agent服務(wù)對大模型返回的帶有圖片信息處理后答案按自定義協(xié)議返回到http服務(wù)端進行可視化展示。

6、作為優(yōu)選,數(shù)據(jù)治理具體如下:

7、利用第三方庫從非結(jié)構(gòu)化文檔中提取文本、圖像及圖表的不同對象類型的數(shù)據(jù)信息分別存儲;其中,將文字按順序保存到對應(yīng)的文本中;將圖片原圖按照統(tǒng)一的圖片格式保存到分布式文件存儲minio中進行存儲,并將保存到minio中的圖片按唯一標(biāo)識命名,并將唯一標(biāo)識存到文本中原圖片所在位置,保證圖片存儲位置與文本的順序關(guān)系跟原文保持一致;

8、將獲取到的整篇文本數(shù)據(jù)經(jīng)過去重、去除不必要的換行和字符的數(shù)據(jù)清洗操作,完成重要的數(shù)據(jù)治理流程。

9、更優(yōu)地,搭建知識庫具體如下:

10、創(chuàng)建知識庫獲取對應(yīng)的名稱和索引;

11、將治理后的文本數(shù)據(jù)經(jīng)過大模型的文本分割、向量化處理后存入到知識庫中。

12、更優(yōu)地,檢索問答及可視化展示具體如下:

13、獲取到查詢問題,經(jīng)過語言處理及詞法分析對查詢問題進行向量化處理;

14、大模型依據(jù)向量化處理后的查詢問題從知識庫中進行向量相似度檢索,并判斷是否檢索到符合相似度要求的知識:

15、若知識庫中未檢索符合相似度要求的知識,則大模型將根據(jù)自身學(xué)習(xí)能力對相應(yīng)的查詢問題進行整合處理后返回到agent服務(wù);

16、若知識庫中檢索到符合相似度要求的知識,則大模型獲取相似度高的前k條知識記錄,并判斷大模型召回的知識中是否包含圖片唯一標(biāo)識:

17、若是大模型召回的知識中含有圖片唯一標(biāo)識,則agent服務(wù)根據(jù)圖片唯一標(biāo)識以及圖片存儲的minio中的位置組合成圖片url,將文本知識以及圖片url按照自定義協(xié)議以流式方式返回給http服務(wù)端展示;

18、若是大模型召回的數(shù)據(jù)中無圖片唯一標(biāo)識,則agent服務(wù)將知識文本按照自定義協(xié)議以流式返回到http服務(wù)端。

19、更優(yōu)地,http服務(wù)端將獲取到的文本數(shù)據(jù)按照順序展示到問答框中,

20、若是檢測到圖片url,則從minio中直接獲取對應(yīng)名稱的圖片渲染到問答框中圖片對應(yīng)的位置中,實現(xiàn)圖片的可視化展示。

21、一種基于非結(jié)構(gòu)化文檔的問答圖片可視化處理系統(tǒng),該系統(tǒng)包括:

22、數(shù)據(jù)治理模塊,用于通過數(shù)據(jù)提取技術(shù)提取并保存非結(jié)構(gòu)化文檔中的文本和圖片,同時使圖片與文本對應(yīng)信息與非結(jié)構(gòu)化文檔中信息一致;

23、知識庫搭建模塊,用于搭建存儲數(shù)據(jù)治理后的非結(jié)構(gòu)化文檔的文本信息的知識庫;

24、檢索問答及可視化展示模塊,用于基于大模型對提問問題采用向量化檢索技術(shù)從搭建好的知識庫中獲取符合要求的答案,并經(jīng)過agent服務(wù)對大模型返回的帶有圖片信息處理后答案按自定義協(xié)議返回到http服務(wù)端進行可視化展示。

25、作為優(yōu)選,數(shù)據(jù)治理模塊包括:

26、存儲子模塊,用于利用第三方庫從非結(jié)構(gòu)化文檔中提取文本、圖像及圖表的不同對象類型的數(shù)據(jù)信息分別存儲;其中,將文字按順序保存到對應(yīng)的文本中;將圖片原圖按照統(tǒng)一的圖片格式保存到分布式文件存儲minio中進行存儲,并將保存到minio中的圖片按唯一標(biāo)識命名,并將唯一標(biāo)識存到文本中原圖片所在位置,保證圖片存儲位置與文本的順序關(guān)系跟原文保持一致;

27、數(shù)據(jù)清洗子模塊,用于將獲取到的整篇文本數(shù)據(jù)經(jīng)過去重、去除不必要的換行和字符的數(shù)據(jù)清洗操作,完成重要的數(shù)據(jù)治理流;

28、知識庫搭建模塊包括:

29、創(chuàng)建子模塊,用于創(chuàng)建知識庫獲取對應(yīng)的名稱和索引;

30、分割機向量化處理子模塊,用于將治理后的文本數(shù)據(jù)經(jīng)過大模型的文本分割、向量化處理后存入到知識庫中。

31、更優(yōu)地,檢索問答及可視化展示模塊包括:

32、獲取問題及問題處理子模塊,用于獲取到查詢問題,經(jīng)過語言處理及詞法分析對查詢問題進行向量化處理;

33、判斷子模塊一,用于大模型依據(jù)向量化處理后的查詢問題從知識庫中進行向量相似度檢索,并判斷是否檢索到符合相似度要求的知識:

34、若知識庫中未檢索符合相似度要求的知識,則大模型將根據(jù)自身學(xué)習(xí)能力對相應(yīng)的查詢問題進行整合處理后返回到agent服務(wù);

35、若知識庫中檢索到符合相似度要求的知識,則大模型獲取相似度高的前k條知識記錄;

36、判斷子模塊二,用于判斷大模型召回的知識中是否包含圖片唯一標(biāo)識:

37、若是大模型召回的知識中含有圖片唯一標(biāo)識,則agent服務(wù)根據(jù)圖片唯一標(biāo)識以及圖片存儲的minio中的位置組合成圖片url,將文本知識以及圖片url按照自定義協(xié)議以流式方式返回給http服務(wù)端展示;

38、若是大模型召回的數(shù)據(jù)中無圖片唯一標(biāo)識,則agent服務(wù)將知識文本按照自定義協(xié)議以流式返回到http服務(wù)端。

39、一種電子設(shè)備,包括:存儲器和至少一個處理器;

40、其中,所述存儲器存儲計算機執(zhí)行指令;

41、所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上述的基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法。

42、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當(dāng)處理器執(zhí)行所述計算機執(zhí)行時,實現(xiàn)如上述的基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法。

43、本發(fā)明的基于非結(jié)構(gòu)化文檔的問答圖片可視化處理方法、系統(tǒng)、設(shè)備及介質(zhì)具有以下優(yōu)點:

44、(一)本發(fā)明采用基于掛載知識庫技術(shù)對非結(jié)構(gòu)化文檔進行文本與圖片擴展,利用數(shù)據(jù)提取與治理技術(shù)對非結(jié)構(gòu)化數(shù)據(jù)進行去重、過濾、提取保存等數(shù)據(jù)清洗流程,將圖片以唯一標(biāo)簽作為名稱保存到minio中,將治理后的含圖片標(biāo)簽的文本數(shù)據(jù)通過文本分割、向量化等處理存入到掛載的向量知識庫中;同時基于大模型向量相似度檢索,對給定的問題向量化處理后從掛載的知識庫中匹配到相似度最高的答案,如果該回答中包含圖片標(biāo)簽,則將圖片在minio中存儲的url以及答案中的文本按自定義協(xié)議以流式返回給http服務(wù)端進行可視化展示;與現(xiàn)有問答系統(tǒng)相比不僅解決了檢索非結(jié)構(gòu)化數(shù)據(jù),又解決了圖可視化這一復(fù)雜可視化類型的自動問答問題;

45、(二)本發(fā)明首先對非結(jié)構(gòu)化文檔內(nèi)容進行提取,對源數(shù)據(jù)進行相應(yīng)的清洗和處理,將圖片單獨存儲,將處理后的文本內(nèi)容通過文本分割和向量化處理存儲到掛載的大模型知識庫中;當(dāng)大模型問答時將問題向量化處理后到掛載的知識庫中進行向量相似度檢索,獲取到相似度高的答案,如果該答案中包含圖片標(biāo)簽,則大模型返回給agent處理成自定義協(xié)議格式并返回給http服務(wù)端進行可視化展示,與傳統(tǒng)的大模型問答方法相比,本發(fā)明掛載知識庫既保證了數(shù)據(jù)時效性和安全性,又避免大模型“幻覺”問題,同時更全面的反饋出文檔的內(nèi)容,尤其對圖片進行可視化展示,增加知識的可讀性與直觀簡潔性,具有良好的推廣使用價值;

46、(三)本發(fā)明利用數(shù)據(jù)提取技術(shù)對非結(jié)構(gòu)化文檔內(nèi)容進行數(shù)據(jù)治理,將包含圖片標(biāo)識的文本經(jīng)過大模型向量化后存入知識庫,圖片存入minio中。在進行問答查詢時,如果查詢內(nèi)容命中知識庫中帶圖片的知識,agent服務(wù)則從知識庫召回文本知識,并從minio獲取圖片信息,最后按自定義協(xié)議返回到http服務(wù)端,有效處理非結(jié)構(gòu)化文檔知識進行內(nèi)容擴展與功能增強,更多樣的模態(tài)支撐可以增強知識庫理解和處理不同來源信息的能力,提高知識庫的可及性,為企業(yè)打造更具包容性的人工智能系統(tǒng);

47、(四)本發(fā)明充分利用了非結(jié)構(gòu)化文檔解析庫對文本和圖片分離提取技術(shù),并在文本中原圖片位置添加圖片唯一標(biāo)識,保證了圖片與文本信息的關(guān)聯(lián)性;并基于知識庫擴展模塊將所依賴的非結(jié)構(gòu)化知識提供給大模型使用,既充分利用了豐富的非結(jié)構(gòu)化數(shù)據(jù),又提高了大模型的知識面和回答問題的準(zhǔn)確性;尤其是相比于現(xiàn)有技術(shù)解決了圖可視化這一復(fù)雜可視化類型的自動問答問題,提高了提問問答的泛化能力和易讀性,具有良好的推廣使用價值;

48、(五)本發(fā)明充分利用非結(jié)構(gòu)化文檔解析庫對文本和圖片的處理技術(shù),既保證了圖片與文本的關(guān)聯(lián)關(guān)系,又保證了圖片的單獨存儲;并基于大模型知識庫擴展模塊和agent服務(wù)解決了圖片可視化這一復(fù)雜可視化類型的自動問答問題,具有良好的使用價值和推廣意義;

49、(六)本發(fā)明充分利用非結(jié)構(gòu)化文檔數(shù)據(jù)提取技術(shù)、大模型知識庫擴展和agent服務(wù),完成了非結(jié)構(gòu)化數(shù)據(jù)豐富大模型知識,同時解決了圖片可視化這一復(fù)雜的可視化類型的自動問答問題;

50、(七)本發(fā)明利用非結(jié)構(gòu)化文檔解析庫將非結(jié)構(gòu)化文檔中的文本和圖片提取出來,將圖片按唯一標(biāo)識命名存儲到minio中,將文本中原圖片位置添加上唯一標(biāo)識保證文本與圖片的有效關(guān)聯(lián);

51、(八)本發(fā)明利用大模型知識庫擴展模塊以及agent服務(wù),將問答答案中的圖片標(biāo)識換成http服務(wù)端識別的圖片url,并按自定義協(xié)議以流式返回到http服務(wù)端進行可視化展示。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1