本發(fā)明涉及表格信息提取,具體是涉及基于大模型的自然語言規(guī)則表格信息提取系統(tǒng)。
背景技術(shù):
1、表格信息提取在各類業(yè)務場景中具有廣泛應用,尤其是在處理結(jié)構(gòu)化數(shù)據(jù)和報告生成時,表格作為一種常見的數(shù)據(jù)呈現(xiàn)方式,往往承載了大量的重要信息,傳統(tǒng)的表格信息提取方法主要依賴于規(guī)則和模板,如正則表達式、字段名稱匹配、關(guān)鍵字提取等技術(shù),但這些方法通常難以處理復雜、動態(tài)、含糊不清的表格結(jié)構(gòu),尤其是當表格內(nèi)容多樣且數(shù)據(jù)類型豐富時,傳統(tǒng)方法的準確率和效率往往受到限制。
2、隨著自然語言處理、深度學習和大模型技術(shù)的發(fā)展,基于智能模型的表格信息提取逐漸成為一種有效的解決方案,這些智能系統(tǒng)能夠基于大數(shù)據(jù)和深度學習模型,自動學習表格結(jié)構(gòu)、字段間的關(guān)聯(lián)、上下文語義,進而實現(xiàn)準確的表格數(shù)據(jù)提取,然而,盡管當前基于大模型的表格信息提取技術(shù)具有很強的潛力,但其效果仍然依賴于如何有效地利用用戶反饋、修正和自學習機制,不斷優(yōu)化數(shù)據(jù)解析規(guī)則,提升準確性和靈活性,因此,在現(xiàn)有技術(shù)中,如何將大模型的自然語言規(guī)則與表格結(jié)構(gòu)結(jié)合,同時利用自學習機制進行實時優(yōu)化,成為提升表格信息提取系統(tǒng)效果的關(guān)鍵技術(shù)挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,提供基于大模型的自然語言規(guī)則表格信息提取系統(tǒng),本技術(shù)方案解決了上述的問題。
2、為達到以上目的,本發(fā)明采用的技術(shù)方案為:
3、基于大模型的自然語言規(guī)則表格信息提取系統(tǒng),包括:
4、數(shù)據(jù)輸入模塊:從用戶上傳的文件中獲取原始數(shù)據(jù);
5、數(shù)據(jù)解析和信息提取模塊:數(shù)據(jù)解析和信息提取模塊與數(shù)據(jù)輸入模塊電性連接,所述數(shù)據(jù)解析和信息提取模塊用于基于自然語言規(guī)則和智能解析模型,動態(tài)識別和提取表格中的字段信息;
6、數(shù)據(jù)轉(zhuǎn)換模塊:數(shù)據(jù)轉(zhuǎn)換模塊與數(shù)據(jù)解析和信息提取模塊電性連接,所述數(shù)據(jù)轉(zhuǎn)換模塊用于將字段信息格式化為統(tǒng)一的成本模板,并進行數(shù)據(jù)校驗和格式化處理;
7、數(shù)據(jù)輸出模塊:數(shù)據(jù)輸出模塊與數(shù)據(jù)轉(zhuǎn)換模塊電性連接,所述數(shù)據(jù)輸出模塊用于將生成的模板上傳至內(nèi)部系統(tǒng),同時采集用戶反饋;
8、用戶反饋與修正模塊:用戶反饋與修正模塊與數(shù)據(jù)輸出模塊電性連接,所述用戶反饋與修正模塊用于基于用戶反饋對模板進行修正;
9、自學習與規(guī)則優(yōu)化模塊:自學習與規(guī)則優(yōu)化模塊與用戶反饋與修正模塊電性連接,所述自學習與規(guī)則優(yōu)化模塊用于基于自學習機制,通過用戶的反饋和修正,優(yōu)化數(shù)據(jù)解析規(guī)則和模型。
10、優(yōu)選地,所述數(shù)據(jù)輸入模塊具體包括:
11、文件上傳與接收單元:提供用戶選擇并上傳文件的界面,支持多種文件格式,包括pdf、excel、word、csv、圖片以及文本文件的上傳,驗證上傳的文件是否符合支持的文件格式標準,格式不符合要求,提示用戶重新上傳;
12、文件存儲與管理單元:將用戶上傳的文件暫時保存在服務器的指定臨時目錄中,對文件進行唯一命名處理,對文件進行去重處理。
13、優(yōu)選地,所述數(shù)據(jù)解析和信息提取模塊具體包括:
14、數(shù)據(jù)預處理單元:對原始數(shù)據(jù)進行清洗和字符編碼統(tǒng)一化,基于表格布局分析算法來恢復表格的結(jié)構(gòu);
15、字段標識與規(guī)則應用單元:基于自然語言規(guī)則、關(guān)鍵字列表與字段名稱識別機制,標識出表格中的關(guān)鍵字段,基于正則表達式在數(shù)據(jù)中提取特定格式的數(shù)據(jù);
16、字段類型推斷單元:通過上下文理解、語義分析等智能解析技術(shù),動態(tài)識別表格中的字段關(guān)系,并確定字段間的語義關(guān)聯(lián),基于周圍字段信息和上下文進行字段識別,使用深度學習模型進行字段的語義分類,基于歷史數(shù)據(jù)和模型訓練,預測表格中可能的字段與字段值;
17、字段關(guān)系推理單元:基于表格的行列位置分析,推理字段間的上下文關(guān)系,設(shè)定規(guī)則來識別和推理表格中的數(shù)據(jù)關(guān)聯(lián),利用nlp模型來分析和推理字段之間的語義關(guān)聯(lián),識別出語義關(guān)系。
18、優(yōu)選地,所述通過上下文理解、語義分析等智能解析技術(shù),動態(tài)識別表格中的字段關(guān)系,并確定字段間的語義關(guān)聯(lián),基于周圍字段信息和上下文進行字段識別,使用深度學習模型進行字段的語義分類,基于歷史數(shù)據(jù)和模型訓練,預測表格中可能的字段與字段值具體包括:
19、清理字段名稱,進行初步的關(guān)鍵字匹配,識別潛在的字段,通過分析字段上下文和相鄰字段,推測字段的語義和類型;
20、使用訓練好的深度學習模型對字段進行分類;
21、使用歷史數(shù)據(jù)集訓練預測模型,根據(jù)字段名稱和上下文預測字段值;
22、基于實際應用中的反饋,持續(xù)優(yōu)化字段類型推斷模型;
23、輸出推斷出的字段類型和預測的字段值。
24、優(yōu)選地,使用歷史數(shù)據(jù)集訓練預測模型,根據(jù)字段名稱和上下文預測字段值具體包括:
25、其中,預測模型公式為:
26、y=β0+β1x1+β2x2+…+βnxn
27、式中,x1x2xn是上下文中的每個字段的值,β1β2βn是對應字段的回歸系數(shù),y為預測字段值,β0為截距項。
28、優(yōu)選地,所述基于表格的行列位置分析,推理字段間的上下文關(guān)系,設(shè)定規(guī)則來識別和推理表格中的數(shù)據(jù)關(guān)聯(lián),利用nlp模型來分析和推理字段之間的語義關(guān)聯(lián),識別出語義關(guān)系具體包括:
29、
30、式中,p(p|x)表示給定輸入文本x,文本屬于正面情感的概率,x是輸入文本,為輸入文本x對應于正面情感類別的評分函數(shù),是輸入文本x對應于負面情感的評分函數(shù),為輸入文本x對應于中性情感的評分函數(shù)。
31、優(yōu)選地,所述數(shù)據(jù)轉(zhuǎn)換模塊具體包括:
32、字段映射單元:根據(jù)業(yè)務需求和目標格式,設(shè)計成本模板,模板定義了數(shù)據(jù)的格式、字段名稱、數(shù)據(jù)類型以及字段順序;
33、映射原始字段到目標字段單元:將原始數(shù)據(jù)中的字段與目標模板中的字段進行映射;
34、數(shù)據(jù)校驗單元:檢查字段數(shù)據(jù)是否符合預期格式,包括日期格式、數(shù)值格式以及字符串長度,檢查數(shù)值字段是否在設(shè)定范圍內(nèi),確保所有必填字段都有有效值,必填字段為空,拋出錯誤與警告,檢查各字段之間是否滿足一致性規(guī)則;
35、數(shù)據(jù)清洗單元:使用默認值對缺失值進行處理,查找并刪除重復的記錄,基于z-score檢測并處理數(shù)據(jù)中的異常值;
36、數(shù)據(jù)格式化單元:根據(jù)目標模板要求,將字段轉(zhuǎn)換成所需格式,對數(shù)據(jù)進行標準化處理,將所有文本字段轉(zhuǎn)化為統(tǒng)一的大寫,去除字符串中的空格與特殊字符,對不同單位的字段進行統(tǒng)一轉(zhuǎn)換;
37、數(shù)據(jù)合并與拆分單元:將多個字段合并為一個字段,對數(shù)據(jù)進行匯總和分組,生成統(tǒng)計信息。
38、優(yōu)選地,所述數(shù)據(jù)輸出模塊具體包括:
39、模板上傳單元:將模板數(shù)據(jù)封裝為json的格式上傳到內(nèi)部存儲系統(tǒng);
40、用戶反饋采集單元:為用戶提供反饋接口,通過用戶填寫的反饋表單、評分以及評論形式,收集用戶對模板的反饋;
41、反饋數(shù)據(jù)存儲:將用戶反饋數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),將反饋數(shù)據(jù)存儲到數(shù)據(jù)庫。
42、優(yōu)選地,所述用戶反饋與修正模塊具體包括:
43、反饋數(shù)據(jù)分析單元:對用戶反饋進行情感分析,識別出用戶的滿意度、痛點和需求,基于分析結(jié)果,識別用戶反映的核心問題,根據(jù)問題的嚴重性、頻率和對用戶體驗的影響,給每個問題分配修正的優(yōu)先級;
44、模板修正與更新單元:設(shè)定修正目標,根據(jù)修正方案對模板進行實際修改,對修改后的模板進行驗證和測試,確保修正后的模板符合預期的功能和效果,對修正后的模板進行版本控制,更新版本號;
45、反饋與修正文檔化單元:將所有反饋問題、分析結(jié)果、修正方案和解決方法記錄在文檔中,生成修正日志,記錄每次修正的內(nèi)容、時間以及修正人員信息。
46、優(yōu)選地,所述自學習與規(guī)則優(yōu)化模塊具體包括:
47、錯誤模式分析與識別單元:分析用戶反饋的錯誤類型,識別哪些錯誤模式最為常見,獲取不同類型的錯誤對用戶體驗的影響,并將其優(yōu)先級排序;
48、數(shù)據(jù)解析規(guī)則的優(yōu)化單元:基于錯誤模式的分析,修正現(xiàn)有的數(shù)據(jù)解析規(guī)則,根據(jù)用戶反饋和新的數(shù)據(jù)需求,新增解析規(guī)則;
49、自學習機制單元:根據(jù)用戶反饋和修正的歷史數(shù)據(jù),使用機器學習算法優(yōu)化模型,基于新的數(shù)據(jù)和反饋,模型自動調(diào)整其參數(shù);
50、實時反饋循環(huán)與更新單元:當規(guī)則與模型經(jīng)過優(yōu)化后,更新系統(tǒng)中的版本。
51、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
52、本發(fā)明提出通過智能解析模型和自然語言規(guī)則,能夠動態(tài)識別表格中的字段信息,無需依賴字段的絕對位置,這種動態(tài)解析機制即使在表格格式發(fā)生變化時,也能確保準確提取關(guān)鍵數(shù)據(jù),提供一種通過自然語言規(guī)則定義字段、條件和處理邏輯的方式,支持字段解析的高靈活性和泛化能力,利用預訓練語言模型,自動識別并解析常用術(shù)語和專業(yè)術(shù)語,避免了傳統(tǒng)方法中需要手動聲明和枚舉術(shù)語的局限性,支持大批量、多格式報價單的并行處理,適用于需要處理大量供應商報價單的場景,大幅提升效率。