社會(huì )調查數據分析方法

時(shí)間:2022-06-25 19:47:16 社會(huì ) 我要投稿
  • 相關(guān)推薦

社會(huì )調查數據分析方法

  針對現今的社會(huì )調查數據處理與分析中存在的問(wèn)題,該文通過(guò)三維矩陣建立了社會(huì )調查數據的數學(xué)模型。下面是小編為大家整理的社會(huì )調查數據分析方法,歡迎閱讀。

社會(huì )調查數據分析方法

  一、社會(huì )調查數據的特點(diǎn)

  通常情況下,社會(huì )調查數據特點(diǎn)如下。

  (1)相關(guān)性

  對于一個(gè)樣本個(gè)體而言,它具有本身的多個(gè)特征,這些特征之間就具有一定的相關(guān)性。對于多個(gè)樣本而言,個(gè)體與個(gè)體的特征之間具有相關(guān)性。如果樣本隨時(shí)間而變化,那么該樣本在不同時(shí)刻的特征之間又具有相關(guān)性。因此,由于上述多個(gè)原因使得社會(huì )調查數據具有了復雜的相關(guān)性,傳統的統計學(xué)調查難以解決這樣的問(wèn)題。

  (2)離散性

  因為社會(huì )調查數據是通過(guò)自填式問(wèn)卷、網(wǎng)絡(luò )調查數據庫等方法得到,所以社會(huì )調查數據一般以離散變量為主,且這些數據之間只有標示作用,并沒(méi)有嚴格的邏輯關(guān)系。

  (3)模糊性

  社會(huì )調查數據當中不可避免的會(huì )接觸到各種表達方式和概念,因此,它具有模糊性。因為由自填式問(wèn)卷或結構式訪(fǎng)問(wèn)的方法得到的社會(huì )調查數據具有以上特點(diǎn),所以在實(shí)際應用中基于統計學(xué)的處理方法只能籠統的顯示數據的部分特性,如頻數、離散程度等。對于數據之間的關(guān)系只能分析出維數極少的大致的關(guān)系。而且利用軟件進(jìn)行數據挖掘時(shí),因為現有的軟件中的數據挖掘算法對于數據類(lèi)型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關(guān)聯(lián)分析,其結果也存在大量的冗余。因此,我們需要建立一個(gè)合適的社會(huì )調查數據的數學(xué)模型來(lái)完善原先的方法并使跟多的數據挖掘方法可以運用到其中,使得結果更準確。

  二、社會(huì )調查數據的建模

  研究中我們發(fā)現,三維矩陣可適用于社會(huì )調查數據的建模。

  1 三維矩陣的定義

  三維矩陣的定義:由n個(gè)p×q階的矩陣組成的n×p×q階的矩陣A稱(chēng)為三維矩陣,又稱(chēng)立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。

  2 三維矩陣模型的建立

  調查問(wèn)卷的題目一般有三種類(lèi)型:單選題、多選題和排序題。這三類(lèi)題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個(gè)向量,排序題可以表示成多個(gè)向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個(gè)向量,其中選中的用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個(gè)n×n的方陣,,其中n表示該排序題的選項數,。這樣,每一題就可以定義為空間中的一個(gè)維度,從而所有的題目就可以構成一個(gè)N維空間。每份調查問(wèn)卷的信息用一個(gè)M×N矩陣表示(M為題目的最大選項數),其在每一維上的選擇稱(chēng)之為一個(gè)元素,這樣每份問(wèn)卷的信息就包括了N個(gè)元素。以第1,2,3題數據為例,其中第1題為單選題選擇“B”,用向量 (0,1, 0..0)T 表示為一個(gè)元素,第2題為多選題選擇“ACE”,用向量 (1, 0,1, 0,1, 0..0)T 表示為一個(gè)元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個(gè)列向量是一個(gè)元素,如圖1所示。

  那么,假設有一問(wèn)卷信息用一個(gè)大小為M×N的矩陣表示。K份的問(wèn)卷信息就可以用K個(gè)大小為M×N的矩陣表示。將這K個(gè)矩陣疊加,形成一個(gè)三維矩陣。這個(gè)三維矩陣就是我們建立的三維矩陣數學(xué)模型,如圖2所示。

  在圖2中我們看到,該三維矩陣數學(xué)模型有三個(gè)坐標軸,它們分別是題目、人數、選項。題目軸以每一道題為一個(gè)單位;人數軸以每一份問(wèn)卷為一個(gè)單位;選項軸的刻度A,B,C,D,E,F等題目選項,其個(gè)數為該調查問(wèn)卷中選項最多的題目的選項個(gè)數。在此基礎之上,這樣的三維矩陣具有以下性質(zhì)。

  (1) 在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1,截面2表示每一道題所有人選擇的信息。

  (2) 在人數軸中選取對應的人,將三維矩陣橫切得到橫截面1,橫截面1表示對應的人選擇所有題目的信息。

  在得到三維矩陣后,可對它進(jìn)行像素化處理,置1的元素用黑點(diǎn)代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著(zhù)人數維度上向下投影,這樣就可以得到一個(gè)具有濃黑不一的點(diǎn)的平面。通過(guò)這些點(diǎn)的濃度,可以知道每一選項選擇的人數。接下來(lái)我們可用灰度級表示點(diǎn)的濃度,篩選出濃度大于一定程度的點(diǎn),在此基礎上進(jìn)行后續算法處理。

  上述三維矩陣數學(xué)模型具有數學(xué)三維矩陣的所有性質(zhì),可依據調查問(wèn)卷的需求進(jìn)行轉置,加權、相乘、篩選等數學(xué)處理,另外在數學(xué)處理的基礎上,采用超圖理論可以大大豐富了調查問(wèn)卷的處理方法。

  三、基于超圖算法的調查問(wèn)卷分析技術(shù)

  超圖是離散數學(xué)中重要的內容,是對圖論的推廣。超圖是有限集合的子系統,它是一個(gè)由頂點(diǎn)的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個(gè)頂點(diǎn)的特性,這與一般的圖有很大不同。超圖分為有向超圖與無(wú)向超圖兩類(lèi),在無(wú)向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。

  超圖在許多領(lǐng)域有廣泛的應用。大家可以利用無(wú)向超圖表示每一道題的選擇情況,先將這每一題的每一個(gè)選項設成一個(gè)節點(diǎn),然后將三維矩陣從上向下投影,如果某一題的若干個(gè)選項同時(shí)被一個(gè)人選擇,就用一條超邊包圍這些節點(diǎn),那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問(wèn)卷中每道題的信息,可以進(jìn)行聚類(lèi)處理。

  利用有向超圖,可以將關(guān)聯(lián)規則表示成有向超圖的形式,在得到了關(guān)聯(lián)規則后,設實(shí)際中得到的關(guān)聯(lián)規則的形式為:前項和后項都是由多個(gè)項組成的集合。該文定義一條關(guān)聯(lián)規則由一條有向超邊表示,有向超邊的頭節點(diǎn)表示關(guān)聯(lián)規則的前項,有向超邊的尾節點(diǎn)表示關(guān)聯(lián)規則的后項。每條有向超邊的頭節點(diǎn)和尾節點(diǎn)均可以為多個(gè),如此便成功表示了復合規則,從而可以使用相關(guān)算法進(jìn)行冗余規則檢測。

  通過(guò)基于有向超圖的冗余規則檢測就可以將關(guān)聯(lián)規則之間存在著(zhù)的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。

  傳統的聚類(lèi)方法都對原始數據計算它們之間的距離來(lái)得到相似度,然后通過(guò)相似度進(jìn)行聚類(lèi),這樣的方法對于低維數據有良好的效果,但是對于高維數據卻不能產(chǎn)生很好的聚類(lèi)效果,因為高維數據的分布有其特殊性。通過(guò)超圖模型的分割實(shí)現對高維數據的聚類(lèi)卻能產(chǎn)生較好的效果。它先將原始數據之間關(guān)系轉化成超圖,數據點(diǎn)表示成超圖的節點(diǎn),數據點(diǎn)間的關(guān)系用超邊的權重來(lái)表示。然后對超圖進(jìn)行分割,除去相應的超邊使得權重大的超邊中的點(diǎn)聚于一個(gè)類(lèi)中,同時(shí)使被除去的超邊權重之和最小。這樣就通過(guò)對超圖的分割實(shí)現了對數據的聚類(lèi)。具體的算法流程如下。

  首先,將數據點(diǎn)之間的關(guān)系轉化為超圖,數據點(diǎn)表示為超圖節點(diǎn)。如果某幾個(gè)數據點(diǎn)的支持度大于一定閾值,則它們能構成一個(gè)頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。

  然后,在基礎此上,通過(guò)超圖分割實(shí)現數據的聚類(lèi)。若設將數據分成k類(lèi),則就是對超圖的k類(lèi)分割,不斷除去相應的超邊,直到將數據分為k類(lèi),且每個(gè)分割中數據都密切相關(guān)為止,同時(shí)保持每次被除去的超邊權重和最小,最終得到的分割就是聚類(lèi)的結果。

  首先,將數據點(diǎn)之間的關(guān)系轉化為超圖,數據點(diǎn)表示為超圖節點(diǎn)。如果某幾個(gè)數據點(diǎn)的支持度大于一定閾值,則它們能構成一個(gè)頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。

  然后,在基礎此上,通過(guò)超圖分割實(shí)現數據的聚類(lèi)。若設將數據分成k類(lèi),則就是對超圖的k類(lèi)分割,不斷除去相應的超邊,直到將數據分為k類(lèi),且每個(gè)分割中數據都密切相關(guān)為止,同時(shí)保持每次被除去的超邊權重和最小,最終得到的分割就是聚類(lèi)的結果。

  如圖3所示是基于超圖算法的選題型調查問(wèn)卷的分析技術(shù)的流程圖,主要包括4個(gè)主要部分,一是用向量表示調查問(wèn)卷結果,二是將向量表示的調查問(wèn)卷轉化為三維矩陣數學(xué)模型表示調查問(wèn)卷結果,三是使用超圖算法進(jìn)行優(yōu)化,四是根據要求顯示調查問(wèn)卷結果。

  四、結語(yǔ)

  該文針對社會(huì )調查數據處理與分析中存在的問(wèn)題,建立了基于三維矩陣的數學(xué)模型,將單選題和多選題表示成向量,將排序題表示成多個(gè)列向量,從而每一題可以表示成空間的一個(gè)維度,每一個(gè)向量就是一個(gè)元素,這樣每一張問(wèn)卷就可以表示成一個(gè)矩陣,通過(guò)將多個(gè)矩陣疊加就可以得到三維矩陣。該數學(xué)模型可以

  利用三維矩陣的性質(zhì)對其進(jìn)行多種數學(xué)處理,如豎切、橫切、像素化后投影等。在數學(xué)處理的基礎上,該文又提出超圖理論對數據進(jìn)行聚類(lèi)和檢測冗余規則的分析。

【社會(huì )調查數據分析方法】相關(guān)文章:

數據整理分析方法10-22

銷(xiāo)售數據的分析方法07-25

數據分析與辦公軟件:數據分析方法07-10

配件庫存分析數據的方法07-10

數據分析常用方法07-26

多維數據分析方法04-07

醫學(xué)數據分析方法10-24

傳統數據分析方法09-20

銷(xiāo)售數據分析的方法07-03

銷(xiāo)售數據分析方法07-03

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆