本發(fā)明屬于網(wǎng)絡(luò)信息數(shù)據(jù)處理,尤其涉及一種基于云計算的大數(shù)據(jù)信息分析方法、裝置、存儲介質(zhì)及系統(tǒng)。
背景技術(shù):
1、目前,隨著互聯(lián)網(wǎng)技術(shù)的普及度不斷提高,網(wǎng)絡(luò)中的數(shù)據(jù)量也愈加龐大,大數(shù)據(jù)信息分析處理方法也應(yīng)運而生。
2、大數(shù)據(jù)信息分析是指從海量、異構(gòu)、動態(tài)的互聯(lián)網(wǎng)數(shù)據(jù)中提取有價值的信息、模式或知識并進(jìn)行分析的過程。它結(jié)合了大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘算法、機器學(xué)習(xí)、自然語言處理(nlp)和網(wǎng)絡(luò)分析等方法,旨在解決數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、實時性強等挑戰(zhàn)。
3、目前針對網(wǎng)絡(luò)數(shù)據(jù)的分析主要是基于機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理等方法,而這類方法的輸出精度均依賴于數(shù)據(jù)輸入的“純度”。但目前網(wǎng)絡(luò)中有大量例如ai合成的批量化生產(chǎn)出的營銷信息、謠言信息等噪聲數(shù)據(jù),影響著各類數(shù)據(jù)分析系統(tǒng)的分析準(zhǔn)確性,造成結(jié)果不可信,因此有待對現(xiàn)有的信息分析方法做出進(jìn)一步改進(jìn)。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的在于提供一種基于云計算的大數(shù)據(jù)信息分析方法,旨在解決目前網(wǎng)絡(luò)中有大量例如ai合成的批量化生產(chǎn)出的營銷信息、謠言信息等噪聲數(shù)據(jù),影響著各類數(shù)據(jù)分析系統(tǒng)的分析準(zhǔn)確性,造成分析結(jié)果不可信的問題。
2、本申請實施例是這樣實現(xiàn)的,提供一種基于云計算的大數(shù)據(jù)信息分析方法,所述方法包括:
3、獲取待分析內(nèi)容的目標(biāo)關(guān)鍵詞,基于網(wǎng)絡(luò)信息獲取對所述目標(biāo)關(guān)鍵詞進(jìn)行內(nèi)容評價的若干評價文章;
4、獲取每篇所述評價文章的行文特征,所述行文特征用于表征所述評價文章的結(jié)構(gòu)邏輯特征和/或內(nèi)容表述特征;
5、對全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個類,從每個類中獲取一個表征該類的典型的模板化特征,得到若干模板化特征;將每篇評價文章的行文特征與所述模板化特征進(jìn)行相似度計算,得到每篇所述評價文章的模板化分?jǐn)?shù);
6、基于情感分析模型對評價文章進(jìn)行內(nèi)容分析,得到每篇評價文章對所述目標(biāo)關(guān)鍵詞進(jìn)行好惡評價的內(nèi)容評分;
7、分別以所述模板化分?jǐn)?shù)和內(nèi)容評分作為橫坐標(biāo)和縱坐標(biāo),以每篇評價文章作為一個數(shù)據(jù)點,構(gòu)建得到二維評價點云圖。
8、本申請實施例的另一目的在于,提供一種基于云計算的大數(shù)據(jù)信息分析裝置,所述基于云計算的大數(shù)據(jù)信息分析裝置包括:
9、評價文章獲取模塊,用于獲取待分析內(nèi)容的目標(biāo)關(guān)鍵詞,基于網(wǎng)絡(luò)信息獲取對所述目標(biāo)關(guān)鍵詞進(jìn)行內(nèi)容評價的若干評價文章;
10、行文特征獲取模塊,用于獲取每篇所述評價文章的行文特征,所述行文特征用于表征所述評價文章的結(jié)構(gòu)邏輯特征和/或內(nèi)容表述特征;
11、模板化分?jǐn)?shù)獲取模塊,用于對全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個類,從每個類中獲取一個表征該類的典型的模板化特征,得到若干模板化特征;將每篇評價文章的行文特征與所述模板化特征進(jìn)行相似度計算,得到每篇所述評價文章的模板化分?jǐn)?shù);
12、內(nèi)容評分獲取模塊,用于基于情感分析模型對評價文章進(jìn)行內(nèi)容分析,得到每篇評價文章對所述目標(biāo)關(guān)鍵詞進(jìn)行好惡評價的內(nèi)容評分;
13、二維評價點云圖獲取模塊,用于分別以所述模板化分?jǐn)?shù)和內(nèi)容評分作為橫坐標(biāo)和縱坐標(biāo),以每篇評價文章作為一個數(shù)據(jù)點,構(gòu)建得到二維評價點云圖。
14、本申請實施例的另一目的在于,提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述的基于云計算的大數(shù)據(jù)信息分析方法的步驟。
15、本申請實施例的另一目的在于,提供一種基于云計算的大數(shù)據(jù)信息分析系統(tǒng),包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述的基于云計算的大數(shù)據(jù)信息分析方法的步驟。
16、本申請實施例提供的一種基于云計算的大數(shù)據(jù)信息分析方法,突出優(yōu)勢在于,本申請利用云端平臺的高計算能力,將大數(shù)據(jù)分析技術(shù)與信息提取技術(shù)進(jìn)行深度整合,以二維圖像的形式有效分離出批量生成內(nèi)容與非模式化生成內(nèi)容對于待評價目標(biāo)的評價,從而能夠得到更加真實、客觀的評價數(shù)據(jù),去除噪聲帶來的影響,尤其適用于產(chǎn)品口碑分析等需要快速響應(yīng)海量文字?jǐn)?shù)據(jù)的場景,精準(zhǔn)高效。
1.一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,所述結(jié)構(gòu)邏輯特征的獲取方法為:
3.根據(jù)權(quán)利要求2所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,所述內(nèi)容表述特征至少包括信息密度特征,所述信息密度特征的獲取方法為:
4.根據(jù)權(quán)利要求3所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,當(dāng)所述行文特征表征所述評價文章的結(jié)構(gòu)邏輯特征和內(nèi)容表述特征時,所述行文特征的獲取方法為:
5.根據(jù)權(quán)利要求1所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,對全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個類的方法包括:
6.根據(jù)權(quán)利要求1所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,所述模板化特征的獲取方式還包括:
7.根據(jù)權(quán)利要求1所述的一種基于云計算的大數(shù)據(jù)信息分析方法,其特征在于,所述方法還包括:
8.一種基于云計算的大數(shù)據(jù)信息分析裝置,其特征在于,所述基于云計算的大數(shù)據(jù)信息分析裝置包括:
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行權(quán)利要求1至7中任一項所述的基于云計算的大數(shù)據(jù)信息分析方法的步驟。
10.一種基于云計算的大數(shù)據(jù)信息分析系統(tǒng),其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1至7中任意一項所述的基于云計算的大數(shù)據(jù)信息分析方法的步驟。