天
- 免費(fèi)試聽
- 直播公告
張鈺琪 10月29日 19:00-21:00
詳情張鈺琪 9月23日 19:30-21:00
詳情【摘要】 歷代中醫(yī)醫(yī)案對(duì)中醫(yī)理論的不斷發(fā)展起著重要作用,而海量的醫(yī)案數(shù)據(jù)遠(yuǎn)遠(yuǎn)超出了人的理解能力。從信息科學(xué)角度來看,中醫(yī)醫(yī)案數(shù)據(jù)是混亂而又復(fù)雜的經(jīng)驗(yàn)數(shù)據(jù)。這導(dǎo)致了醫(yī)案研究的困難,亟需新技術(shù)和新方法的引進(jìn),知識(shí)發(fā)現(xiàn)技術(shù)方法可能就是一種重要而有效的方法。本文簡(jiǎn)要介紹了中醫(yī)醫(yī)案中的知識(shí)發(fā)現(xiàn)技術(shù)方法,并提出具體研究思路,以期有助于實(shí)現(xiàn)醫(yī)案研究技術(shù)創(chuàng)新。
【關(guān)鍵詞】 中醫(yī); 醫(yī)案; 知識(shí); 技術(shù); 數(shù)據(jù)
中醫(yī)醫(yī)案是中醫(yī)臨床醫(yī)師實(shí)施辨證論治過程的文字記錄,是保存、查核、考評(píng)乃至研究具體診療活動(dòng)的檔案資料[1]。在中醫(yī)藥學(xué)領(lǐng)域中,自古至今,從散在于各種史料中記錄的醫(yī)案雛形,到醫(yī)案專著,醫(yī)案一直伴隨著中醫(yī)藥學(xué)的發(fā)展。隨著醫(yī)案記錄的不斷涌現(xiàn),醫(yī)案分析研究也層出不窮,在中醫(yī)理論的形成發(fā)展傳承過程中一直充滿活力,是中醫(yī)理論不斷發(fā)展的搖籃。隨著新技術(shù)、新方法不斷引入中醫(yī)藥研究領(lǐng)域,應(yīng)用現(xiàn)代科學(xué)技術(shù)方法對(duì)中醫(yī)醫(yī)案進(jìn)行研究已經(jīng)提上日程。
1 中醫(yī)醫(yī)案的特征與新技術(shù)新方法的引進(jìn)
中醫(yī)醫(yī)案是中醫(yī)理、法、方、藥綜合運(yùn)用的具體反映形式,它不僅是醫(yī)療活動(dòng)的真實(shí)記述,而且還反映了醫(yī)家的臨床經(jīng)驗(yàn)及思維活動(dòng)。由于醫(yī)家所處時(shí)代不同,個(gè)人經(jīng)歷、學(xué)識(shí)、愛好和修養(yǎng)等各異,因此歷代醫(yī)案的數(shù)量、形式、體裁、風(fēng)格和內(nèi)容等亦在不斷變化中。我國(guó)早在2 000多年前,名醫(yī)淳于意就首先注意醫(yī)案(診籍)的記載。但秦漢以降,醫(yī)家崇尚方書,此后直至隋唐五代,醫(yī)案才逐漸散見于醫(yī)籍和文史書中,數(shù)量少且內(nèi)容簡(jiǎn);宋金元時(shí)期醫(yī)案專著開始出現(xiàn),醫(yī)籍附案逐漸增多,醫(yī)家立案蔚然成風(fēng),醫(yī)案風(fēng)格異彩紛呈。醫(yī)案發(fā)展至明代,開始有名醫(yī)醫(yī)案的專著出版,如江灌的《名醫(yī)類案》。此期在醫(yī)案數(shù)量增加的同時(shí),質(zhì)量也有了明顯提高,主要表現(xiàn)為內(nèi)容完整、客觀;格式多樣、規(guī)范;說理透徹、詳明;文筆秀美、流暢[2]。明末清初醫(yī)家喻嘉言在《寓意草》中撰“與門人定議病式”,在韓懋和吳昆等人的基礎(chǔ)上,對(duì)撰寫醫(yī)案的內(nèi)容與格式提出了更高的要求,即態(tài)度應(yīng)嚴(yán)肅認(rèn)真,內(nèi)容應(yīng)詳盡,理法方藥應(yīng)齊備。而張山雷在撰寫風(fēng)格上,或繼承明清兩代的特點(diǎn),或?qū)鹘y(tǒng)醫(yī)案加以變革,采用中西匯通的觀點(diǎn)敘述醫(yī)案。隨著時(shí)代的不斷進(jìn)步,醫(yī)案的數(shù)量也呈“爆炸式”增長(zhǎng)。如隋唐五代前千百年的醫(yī)案,數(shù)量少且內(nèi)容簡(jiǎn);而僅在清代,醫(yī)家撰寫的醫(yī)案專著就達(dá)200余種,而且門類齊全,風(fēng)格多樣,既有個(gè)人醫(yī)案、醫(yī)案類書、醫(yī)案叢書,又有??漆t(yī)案、專題醫(yī)案、會(huì)診醫(yī)案、醫(yī)案評(píng)注及宮廷醫(yī)案等;近十年公開出版的名老中醫(yī)醫(yī)案有近百種之多,每種收錄醫(yī)案數(shù)百則到千余則不等。古今醫(yī)案內(nèi)容也發(fā)生了很大變化[3],向應(yīng)用中醫(yī)基本理論研究現(xiàn)代醫(yī)學(xué)疾病的方向發(fā)展,注重記載現(xiàn)代醫(yī)學(xué)已診斷明確的病名。常見的記載方式為中西醫(yī)診斷并列,以利互參。醫(yī)案記載實(shí)驗(yàn)室等客觀檢查的內(nèi)容逐日增多,針對(duì)檢查結(jié)果的辨治內(nèi)容如“微觀辨證”等隨之出現(xiàn)?,F(xiàn)代醫(yī)案中處方用藥的內(nèi)容變化也較明顯,醫(yī)者不僅根據(jù)中醫(yī)藥理論選方用藥,而且根據(jù)現(xiàn)代醫(yī)學(xué)病理生理和中藥藥理進(jìn)展來選方用藥,醫(yī)案中合用西藥的現(xiàn)象越來越多。即便現(xiàn)代醫(yī)案也存在著記載缺雜混亂、現(xiàn)代醫(yī)學(xué)成分過多、文詞晦澀、夸張不實(shí)等諸多問題[4]。從以上分析可知,從信息科學(xué)角度來看,中醫(yī)醫(yī)案數(shù)據(jù)將是混亂又復(fù)雜的經(jīng)驗(yàn)數(shù)據(jù)。這些導(dǎo)致了中醫(yī)醫(yī)案研究的困難。隨著科學(xué)技術(shù)的飛速發(fā)展,醫(yī)學(xué)領(lǐng)域分工日益細(xì)化,跨專業(yè)的溝通變得更加困難,而某個(gè)專業(yè)領(lǐng)域的信息,可能對(duì)相關(guān)專業(yè)領(lǐng)域是有價(jià)值的,它們之間存在著某種隱含的有價(jià)值的關(guān)聯(lián),而以常規(guī)方式通常檢索不到這種關(guān)聯(lián)性。中醫(yī)醫(yī)案不僅涉及到臨床內(nèi)、外、婦、兒各科,還包含了中醫(yī)學(xué)中的哲學(xué)基礎(chǔ)、中醫(yī)對(duì)正常人體和疾病的認(rèn)識(shí),以及中醫(yī)食療、養(yǎng)生和診療疾病的原則等方方面面,如何對(duì)其中隱含的知識(shí)進(jìn)行解析與發(fā)現(xiàn),必將是今后研究的熱點(diǎn)與難點(diǎn)。而且中醫(yī)藥學(xué)科內(nèi)仍然有大量的問題,甚至是一些基本性的問題得不到合理的、科學(xué)的解釋,研究的空白比比皆是,這些都可能通過中醫(yī)醫(yī)案研究得到解決或啟示。但以個(gè)人之力實(shí)難發(fā)現(xiàn)其中蘊(yùn)含的有價(jià)值信息,而且以人工逐字研讀名老中醫(yī)醫(yī)案,容易產(chǎn)生遺漏,來回翻頁(yè)又很繁瑣。要完成普通人不能完成的任務(wù),這就需要有新技術(shù)新方法的引進(jìn),知識(shí)發(fā)現(xiàn)技術(shù)方法可能就是這樣一種重要而有效的方法。
2 知識(shí)發(fā)現(xiàn)方法及其在中醫(yī)醫(yī)案研究中的應(yīng)用
知識(shí)發(fā)現(xiàn)是指從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可被理解的模式的非一般的過程[5, 6]。知識(shí)發(fā)現(xiàn)是多學(xué)科交叉的新興邊緣學(xué)科。近年來,隨著數(shù)據(jù)獲取和數(shù)據(jù)存儲(chǔ)技術(shù)的快速發(fā)展,各種數(shù)據(jù)庫(kù)、數(shù)據(jù)集和數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)量飛速增長(zhǎng)。如何從這些海量數(shù)據(jù)中提取出有用的知識(shí)呢?數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)的出現(xiàn)為人們提供了一條解決這種“數(shù)據(jù)豐富而知識(shí)貧乏”困境的有效途徑。當(dāng)前國(guó)際上,知識(shí)發(fā)現(xiàn)的研究主要是以知識(shí)發(fā)現(xiàn)的任務(wù)描述、知識(shí)評(píng)價(jià)與知識(shí)表示為主線,以有效的知識(shí)發(fā)現(xiàn)算法為中心。知識(shí)發(fā)現(xiàn)過程一般由三個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋。知識(shí)的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過程。中醫(yī)醫(yī)案中的知識(shí)發(fā)現(xiàn)也不例外。
2.1 數(shù)據(jù)準(zhǔn)備 要有效地利用KDD進(jìn)行中醫(yī)醫(yī)案知識(shí)發(fā)現(xiàn),首先必須進(jìn)行數(shù)據(jù)準(zhǔn)備工作。目前,在“中文科技期刊數(shù)據(jù)庫(kù)(引文版)”、“中國(guó)期刊全文數(shù)據(jù)庫(kù)”等數(shù)據(jù)庫(kù)中,以發(fā)表論文的形式實(shí)現(xiàn)了部分現(xiàn)代醫(yī)案的數(shù)據(jù)準(zhǔn)備工作。此外僅少數(shù)專題性質(zhì)的數(shù)據(jù)庫(kù)收錄了一些古今醫(yī)案。再加上散見于古今醫(yī)籍和文史書中的醫(yī)案,中醫(yī)醫(yī)案的數(shù)據(jù)準(zhǔn)備工作將是一個(gè)龐大的系統(tǒng)工程。中醫(yī)醫(yī)案的數(shù)據(jù)準(zhǔn)備中具體要解決的是:設(shè)定并明確中醫(yī)醫(yī)案知識(shí)發(fā)現(xiàn)的目標(biāo);對(duì)中醫(yī)醫(yī)案數(shù)據(jù)加以充分理解;對(duì)相關(guān)的中醫(yī)醫(yī)案數(shù)據(jù)進(jìn)行必要的預(yù)處理,使其符合KDD算法的要求;選用合適的KDD方法進(jìn)行數(shù)據(jù)建模。其中中醫(yī)醫(yī)案中的知識(shí)發(fā)現(xiàn)的目標(biāo),可以從指導(dǎo)中醫(yī)臨床應(yīng)用角度,對(duì)醫(yī)案內(nèi)容加以分析歸納研究,如對(duì)醫(yī)者臨證思維的闡釋,對(duì)各醫(yī)家、流派學(xué)術(shù)思想的探討,各專科、專病、專癥理法方藥運(yùn)用特點(diǎn)的歸納,以供臨證學(xué)習(xí)參照,并可建立智能診療系統(tǒng)。也可以就其中蘊(yùn)含的中醫(yī)醫(yī)理、藥理進(jìn)行研究,尋求中醫(yī)藥基礎(chǔ)理論的新突破、中藥新藥的勘探等。
2.2 中醫(yī)醫(yī)案中的知識(shí)發(fā)現(xiàn)可能運(yùn)用的主要技術(shù)
2.2.1 統(tǒng)計(jì)方法 從歷史上看,統(tǒng)計(jì)工作主要集中在測(cè)試預(yù)先的假說以及使模型適合于數(shù)據(jù)等。研究上,統(tǒng)計(jì)方法通常依賴于一個(gè)明確的潛在概率模型。此外,人們假定這些方法是由統(tǒng)計(jì)學(xué)家來使用的;為了生成候選假說和模型,人的干預(yù)是必要的。目前已有中醫(yī)醫(yī)案論文中用了頻數(shù)統(tǒng)計(jì)的這種最粗淺的醫(yī)學(xué)統(tǒng)計(jì)方法來進(jìn)行研究,通過這種計(jì)量的研究使得結(jié)論更有說服力。如姜良鐸[7]在董建華的指導(dǎo)下,運(yùn)用統(tǒng)計(jì)學(xué)原理對(duì)古今700多醫(yī)家10 009則溫病醫(yī)案進(jìn)行分析,從而總結(jié)出溫病診斷指標(biāo)及證治方藥規(guī)律。
2.2.2 聚類分析 又稱集群分析,是指利用物以類聚的原理,把大量無序的數(shù)據(jù)分成數(shù)類,有助于對(duì)大量數(shù)據(jù)中的規(guī)則予以認(rèn)識(shí),它是一種數(shù)理統(tǒng)計(jì)方法,可將一些觀察對(duì)象依據(jù)某些特征加以歸類,在生物學(xué)和醫(yī)學(xué)分類問題中有著廣泛的應(yīng)用。在中醫(yī)醫(yī)案研究中,聚類分析能較好地避免分類過程中摻雜的主觀因素,能客觀地準(zhǔn)確地反映研究對(duì)象,并從中可能發(fā)現(xiàn)其內(nèi)在的客觀規(guī)律[8]。如周德生[9]統(tǒng)計(jì)了明清時(shí)期26部現(xiàn)存醫(yī)案中的津液虧損病案573例,采用R型系統(tǒng)聚類分析方法,得出津液虧損中每個(gè)亞型的幾個(gè)主要用藥,并揭示了明清時(shí)期津液理論的某些特征。
2.2.3 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)是指模擬人腦工作機(jī)制的一種計(jì)算模型,它是由非處理單元組成的非線性大規(guī)模自適應(yīng)系統(tǒng),以類似于人腦神經(jīng)網(wǎng)絡(luò)的并行處理結(jié)構(gòu)進(jìn)行信息的高級(jí)處理。由于它具有自適應(yīng)性、并行處理能力和非線性處理的優(yōu)點(diǎn),所以在醫(yī)學(xué)領(lǐng)域被廣泛應(yīng)用[10]。目前已有學(xué)者利用人工神經(jīng)網(wǎng)絡(luò)原理實(shí)現(xiàn)對(duì)病案的分析,用病癥分類神經(jīng)網(wǎng)絡(luò)來說明知識(shí)自動(dòng)獲取方法的實(shí)現(xiàn)。它應(yīng)用人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(back propagation algorithm, BP),通過研究中醫(yī)醫(yī)案,形成專家知識(shí),對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而使網(wǎng)絡(luò)獲得一定的學(xué)習(xí)能力,將訓(xùn)練所“學(xué)習(xí)”而來的“知識(shí)”運(yùn)用到新的病癥判斷中,從而實(shí)現(xiàn)對(duì)新知識(shí)的獲取[11]。其雖然只是舉了一個(gè)例子,但引進(jìn)了醫(yī)案分析的新方法。
2.2.4 決策樹 該樹的每個(gè)非終端點(diǎn)均表示被考察數(shù)據(jù)項(xiàng)目的一個(gè)測(cè)試或決策,根據(jù)測(cè)試結(jié)果選擇某個(gè)分支。為了分類一個(gè)特定數(shù)據(jù)項(xiàng)目,從報(bào)結(jié)點(diǎn)開始,一直向下判定,直到到達(dá)一個(gè)終端結(jié)點(diǎn)(或葉子)時(shí)為止。當(dāng)?shù)竭_(dá)一個(gè)終端結(jié)點(diǎn)時(shí),一個(gè)決策便形成了。決策樹也可解釋成一種特殊形式的規(guī)則集,其特征是規(guī)則的層次組織關(guān)系。前已述及,中醫(yī)醫(yī)案數(shù)據(jù)是混亂又復(fù)雜的經(jīng)驗(yàn)數(shù)據(jù)。而處理大量混亂而復(fù)雜的經(jīng)驗(yàn)數(shù)據(jù)的一個(gè)很好的方法是決策樹分類技術(shù)。利用知識(shí)發(fā)現(xiàn)中的決策樹方法來對(duì)這些數(shù)據(jù)分析,可以為醫(yī)生提供極具價(jià)值的知識(shí),從而對(duì)臨床醫(yī)療方案進(jìn)行優(yōu)化。目前已有研究者從醫(yī)院病案室保存的冠狀動(dòng)脈粥樣硬化性心臟病(簡(jiǎn)稱冠心病)病案中選取了一些數(shù)據(jù)作為挖掘的原始數(shù)據(jù)集,進(jìn)行了基于決策樹的醫(yī)療數(shù)據(jù)分析,得到了良好的效果[12]。同樣,我們也可以進(jìn)行基于決策樹的中醫(yī)醫(yī)案數(shù)據(jù)分析,從而優(yōu)化傳統(tǒng)的中醫(yī)醫(yī)療方案。
2.2.5 模糊集與粗糙集 模糊集是一種表達(dá)和處理不確定性的重要方法。不確定性以多種形式發(fā)生在今天的數(shù)據(jù)庫(kù)模型中,如不精確、不完全、不典型、不一致、含糊,等等。模糊集利用不確定性使系統(tǒng)的復(fù)雜性變得可處理。當(dāng)精確輸入不可能或太昂貴時(shí),模糊系統(tǒng)就是一種強(qiáng)有力的模型方法。粗糙集合理論中的模糊性就是一種基于邊界的概念,即一個(gè)不精確的概念具有模糊的不可被明確劃分的邊界。粗糙集用一個(gè)集合的上下界來定義,下界中的每個(gè)成員都是這個(gè)集合的成員,而上界的每個(gè)非成員也一定是這個(gè)集合的非成員。粗糙集中的上界是下界和邊界區(qū)域的并集。邊界區(qū)域的成員可能(但是不能肯定)是這個(gè)集合中的成員。因此,粗糙集可以被看成是一個(gè)有三級(jí)成員函數(shù)(是,否,可能)的模糊集。象模糊集那樣,粗糙集是處理數(shù)據(jù)不確定性的一種數(shù)學(xué)概念。與模糊集類似,粗糙集很少單獨(dú)使用,而通常是與規(guī)則推導(dǎo)、分類、聚類等其他方法一起組合使用。已有學(xué)者基于奇異粗集及其元素遷移,研究其在中醫(yī)藥辨證診治過程和中藥方加減中的應(yīng)用,設(shè)計(jì)一個(gè)基于雙向S粗集的中醫(yī)藥辨證診治知識(shí)支持系統(tǒng),為人工智能技術(shù)在中醫(yī)藥診治領(lǐng)域中的應(yīng)用開辟了一個(gè)新的思路[13]。我們也可以采用類似方法研究中醫(yī)醫(yī)案中蘊(yùn)含的各醫(yī)家辨證診治思維過程,從而把中醫(yī)藥研究引向深入。
2.3 結(jié)果表述和解釋 是指根據(jù)最終用戶的決策目的,對(duì)提取的信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來,并且通過決策支持工具交給決策者。在中醫(yī)醫(yī)案研究中,根據(jù)設(shè)定的中醫(yī)醫(yī)案知識(shí)發(fā)現(xiàn)的目標(biāo),例如關(guān)于疾病的診斷治法遣方用藥的分析,對(duì)相關(guān)信息進(jìn)行相應(yīng)分析處理,由特定知識(shí)發(fā)現(xiàn)工具來實(shí)現(xiàn)。但結(jié)果仍需終端用戶來判定是否符合中醫(yī)藥基本理論或者通過臨床科研實(shí)踐來進(jìn)行驗(yàn)證。
3 非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法及其在中醫(yī)醫(yī)案研究中的應(yīng)用
3.1 非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法概述 隨著科學(xué)技術(shù)的高度發(fā)展,學(xué)科的分化越來越細(xì),學(xué)科間交流越來越困難,知識(shí)總量與人類吸收能力之間的矛盾日益突出。一個(gè)專業(yè)領(lǐng)域的信息可能對(duì)另一個(gè)專業(yè)領(lǐng)域是有價(jià)值的,跨學(xué)科間一定存在著潛在的未被發(fā)現(xiàn)的關(guān)聯(lián)。這就是所謂“知識(shí)分裂理論”[14]。在大量分裂的知識(shí)或科學(xué)文獻(xiàn)之間存在著千絲萬縷的聯(lián)系,這些聯(lián)系既包括我們通過常規(guī)組配檢索可得到的顯性的聯(lián)系(或知識(shí)),也包括那些常規(guī)檢索得不到的隱性的聯(lián)系(或知識(shí))。1985年Swanson偶然發(fā)現(xiàn),兩篇醫(yī)學(xué)文獻(xiàn)放在一起會(huì)揭示出某一個(gè)問題的答案,而這個(gè)答案是從單獨(dú)一篇文獻(xiàn)得不到的。這預(yù)示著在醫(yī)學(xué)文獻(xiàn)中存在著大量的未被發(fā)現(xiàn)的隱含的關(guān)聯(lián)。Swanson認(rèn)為,將兩類非直接相關(guān)的文獻(xiàn)結(jié)合在一起分析,會(huì)形成一種新的知識(shí),而這種新的知識(shí)是通過單獨(dú)分析兩類文獻(xiàn)中的任何一類而得不到的。這就是他的非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)思想[15, 16]。在大量的文獻(xiàn)中,一些文獻(xiàn)可能相互引用,文獻(xiàn)間存在著人們可利用數(shù)據(jù)庫(kù)檢索到的顯性聯(lián)系;有些文獻(xiàn)互不引用或很少被共同引用,則稱這兩類文獻(xiàn)是相互獨(dú)立的,也就是非相關(guān)的。一些非相關(guān)文獻(xiàn)通過各自提出的觀點(diǎn)聯(lián)系在一起,形成邏輯關(guān)聯(lián)。這種聯(lián)系通過常規(guī)的數(shù)據(jù)庫(kù)檢索是檢不到的,是未被發(fā)現(xiàn)的隱密的聯(lián)系,是新知識(shí)的源泉,可能對(duì)科研的發(fā)展具有重大意義[17]。常規(guī)的聯(lián)機(jī)醫(yī)學(xué)文獻(xiàn)分析檢索系統(tǒng)(MEDLINE)檢索方式是通過給定的題目檢索已發(fā)表的文獻(xiàn)。為了擴(kuò)展MEDLINE檢索功能,克服其局限性,Swanson設(shè)計(jì)了一個(gè)人機(jī)交互的軟件系統(tǒng),并制定了相應(yīng)的數(shù)據(jù)庫(kù)檢索策略,稱為Arrowsmith,用于分析研究非相關(guān)的互補(bǔ)文獻(xiàn),更加易于在兩組生物醫(yī)學(xué)文獻(xiàn)間發(fā)現(xiàn)互補(bǔ)性結(jié)構(gòu)[18]。在Swanson的研究方法的基礎(chǔ)上,很多研究人員對(duì)基于非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法進(jìn)行了改進(jìn)。Gordon和Lindsay改進(jìn)了Swanson的基于單詞的詞頻統(tǒng)計(jì)方法,利用基于短語的詞頻統(tǒng)計(jì)方法,引入了四個(gè)參數(shù)來獲得短語的最終詞頻,驗(yàn)證了雷諾病(Raynaud),魚油(fish oil)之間的關(guān)聯(lián)[19, 20]。Weeber等[21]利用一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System, UMLS)的語義類型實(shí)現(xiàn)了自然語言與UMLS概念的映射。這種語義篩選的機(jī)制能夠產(chǎn)生概念的聚類,尤其是中間集合的概念的聚類。Srinivasan[22]將Weeber的語義分析方法和Gordon的詞頻統(tǒng)計(jì)方法結(jié)合起來提出基于概念的詞頻統(tǒng)計(jì)方法,將自然語言通過醫(yī)學(xué)主題詞表(medical subject headings, MeSH)與UMLS的語義類型聯(lián)系起來,并利用Gordon的統(tǒng)計(jì)參數(shù),計(jì)算概念之間的相關(guān)性。
3.2 非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法及其在中醫(yī)醫(yī)案研究中的應(yīng)用 由于中醫(yī)醫(yī)案是中醫(yī)臨床醫(yī)師實(shí)施辨證論治過程的文字記錄,相互之間幾乎互不引用,兩篇中醫(yī)醫(yī)案相互獨(dú)立,也就是非相關(guān)的,這符合非相關(guān)文獻(xiàn)的定義。但是其中蘊(yùn)含的醫(yī)理可能是一致的,這為非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法在中醫(yī)醫(yī)案研究中的應(yīng)用提供了基礎(chǔ)。Arrowsmith系統(tǒng)是實(shí)現(xiàn)非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)的軟件工具,其主要功能是:從兩類非相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)記錄的標(biāo)題、主題詞及文摘當(dāng)中,提取自然語言并加以分析排列,找到能表達(dá)兩類非相關(guān)文獻(xiàn)間關(guān)聯(lián)性的概念、詞語等,供研究人員參考。我們完全可以借鑒和參照Arrowsmith系統(tǒng),結(jié)合相關(guān)技術(shù)研究最新進(jìn)展,研制可處理中醫(yī)醫(yī)案的軟件系統(tǒng)。有研究者[23]提出了非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法在中醫(yī)研究中的應(yīng)用需要依賴的幾項(xiàng)關(guān)鍵技術(shù)。非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)軟件系統(tǒng)本身并不復(fù)雜,但是實(shí)現(xiàn)在中醫(yī)醫(yī)案研究中的應(yīng)用同樣需要依賴幾項(xiàng)關(guān)鍵技術(shù)。
3.2.1 中醫(yī)醫(yī)案數(shù)據(jù)庫(kù)的建立 面對(duì)浩若煙海的中醫(yī)醫(yī)案文獻(xiàn),面對(duì)因時(shí)代變遷而造成眾多歧義的中醫(yī)藥概念及詞匯,中醫(yī)醫(yī)案數(shù)據(jù)庫(kù)的建立是需要首先解決的問題。中醫(yī)醫(yī)案一般沒有標(biāo)題、主題詞及摘要,甚至某些中醫(yī)醫(yī)案本身就帶有摘要性質(zhì)。同時(shí)中醫(yī)醫(yī)案形式、體裁、風(fēng)格、內(nèi)容的多樣性也使中醫(yī)醫(yī)案數(shù)據(jù)庫(kù)的建立成為困難。我們可以采用先易后難的策略,先從較規(guī)范的現(xiàn)代醫(yī)家醫(yī)案入手,最終建立中醫(yī)醫(yī)案數(shù)據(jù)庫(kù)。
3.2.2 中醫(yī)藥學(xué)中文文本自動(dòng)分詞和詞性標(biāo)注系統(tǒng)研制 實(shí)施中醫(yī)藥古文獻(xiàn)的自動(dòng)切分與標(biāo)注,需要一個(gè)高性能的切分標(biāo)注軟件。近年來,中文自動(dòng)分詞技術(shù),無論是自動(dòng)分詞的算法方面,還是詞表的研制方面,都取得較大進(jìn)展,技術(shù)已經(jīng)日益成熟。將這些技術(shù)應(yīng)用于中醫(yī)醫(yī)案研究當(dāng)中還需要做一些軟件實(shí)現(xiàn)或集成的工作。但同時(shí),中醫(yī)疾病病名、藥名、度量衡混亂,亟需穩(wěn)定化、標(biāo)準(zhǔn)化[24],中醫(yī)理論術(shù)語的模糊性等,也是軟件設(shè)計(jì)中要解決的問題。
3.2.3 停用詞表研制 因?yàn)橹嗅t(yī)語言的多義性與模糊性,有一些無意義的語詞,或者是在特定研究領(lǐng)域內(nèi)無意義的語詞,應(yīng)該列入停用詞表,在抽詞的過程加以刪除,降低運(yùn)算的復(fù)雜程度,提高結(jié)果的準(zhǔn)確性。但停用詞與停用范圍的確定本身也是個(gè)要解決的問題。
4 結(jié)語
章太炎先生指出:“中醫(yī)之成績(jī),醫(yī)案最著。欲求前人之經(jīng)驗(yàn)心得,醫(yī)案最有線索可尋,循此鉆研,事半功倍?!币诰蛑嗅t(yī)寶庫(kù),就要總結(jié)前人經(jīng)驗(yàn),研究其學(xué)術(shù)思想;要提高臨床療效,要升華形成新的理論,以推動(dòng)中醫(yī)藥學(xué)科的整體發(fā)展。因此,有必要認(rèn)真研究中醫(yī)醫(yī)案。我們有理由相信,隨著知識(shí)發(fā)現(xiàn)技術(shù)方法在中醫(yī)醫(yī)案研究中的應(yīng)用,中醫(yī)藥學(xué)一定有著更廣闊的未來。
【參考文獻(xiàn)】
1 Zhang XP. Study on traditional Chinese medical case records. Beijing: China Press of Traditional Chinese Medicine. 1995: 1. Chinese.
張笑平。 中醫(yī)病案學(xué)。 北京: 中國(guó)中醫(yī)藥出版社。 1995: 1.
2 Liu GS, Xu QH, Wang CM. Brief discussion on medical case records, medical saying and medical discussing. Shandong Zhong Yi Yao Da Xue Xue Bao. 1997; 21(5): 381384. Chinese.
劉更生, 徐慶會(huì), 王長(zhǎng)美。 醫(yī)案、醫(yī)話、醫(yī)論說略。 山東中醫(yī)藥大學(xué)學(xué)報(bào)。 1997; 21(5): 381384.
3 Hu JB, He L. Effects of the changes of medical case records‘ content on the development of traditional Chinese medicine. Wannan Yi Xue Yuan Xue Bao. 1992; 11(1): 5961. Chinese.
胡劍北, 何玲。 醫(yī)案內(nèi)容變化對(duì)中醫(yī)學(xué)發(fā)展的影響。 皖南醫(yī)學(xué)院學(xué)報(bào)。 1992; 11(1): 5961.
4 Hu JB. Exploring the study of some problems in medical case records. Wannan Yi Xue Yuan Xue Bao. 1991; 10(4): 264265. Chinese.
胡劍北。 醫(yī)案中若干問題的討論。 皖南醫(yī)學(xué)院學(xué)報(bào)。 1991; 10(4): 264265.
5 Guo M, Wang J. Data mining and database knowledge discovery. Mo Shi Shi Bie Yu Ren Gong Zhi Neng. 1998; 11(3): 292299. Chinese with abstract in English.
郭萌, 王玨。 數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)。 模式識(shí)別與人工智能。 1998; 11(3): 292299.
6 Losiewicz P, Oard DW, Kostoff RN. Textual data mining to support science and technology management. J Intel Info Syst. 2000; 15(2): 99119.
7 Jiang LD. Study on index of epidemic febrile disease diagnosis and discipline of the syndrome, treatment, recipe and drugs: statistic analysis on 10 009 cases of ancient and modern medical case records about epidemic febrile disease. Zhong Yi Za Zhi. 1987; 30(11): 30. Chinese.
姜良鐸。 溫病診斷指標(biāo)及證治方藥規(guī)律的研究—古今溫病醫(yī)案10 009例次統(tǒng)計(jì)分析。 中醫(yī)雜志。 1987; 30(11): 30.
8 Liu J. The application of clustering analysis in traditional Chinese medical research. Zhong Yi Yao Xue Kan. 2004; 22(5): 927928. Chinese.
劉稼。 聚類分析在中醫(yī)藥研究中的應(yīng)用及意義。 中醫(yī)藥學(xué)刊。 2004; 22(5): 927928.
9 Zhou DS. Statistic analysis on treatment according to syndrome differentiation: 573 cases of medical records about deficiency of body fluid in the Ming and Qing dynasties. Zhong Yi Yao Yan Jiu. 1998; 14(4): 1213. Chinese.
周德生。 明清時(shí)期津液虧損病案573例辨證用藥統(tǒng)計(jì)分析。 中醫(yī)藥研究。 1998; 14(4): 1213.
10 Cao XQ, Mou YG. Artificial neural networks technology applications for medicine research. Xian Dai Lin Chuang Yi Xue Sheng Wu Gong Cheng Xue Za Zhi. 2003; 9(1): 5760. Chinese with abstract in English.
曹顯慶, 牟永閣。 人工神經(jīng)網(wǎng)絡(luò)技術(shù)在醫(yī)學(xué)研究中的應(yīng)用。 現(xiàn)代臨床醫(yī)學(xué)生物工程學(xué)雜志。 2003; 9(1): 5760.
11 Ye J, Xing CD. ANNbased illnesses diagnose prototype system. Dong Hua Da Xue Xue Bao (Zi Ran Ke Xue Ban)。 2003; 29(4): 4344. Chinese with abstract in English.
葉進(jìn), 邢傳鼎。 基于人工神經(jīng)網(wǎng)絡(luò)的病癥診斷原型系統(tǒng)。 東華大學(xué)學(xué)報(bào)(自然科學(xué)版)。 2003; 29(4): 4344.
12 Liu K, Liu YZ. Analysis of medical treatment data based on decision tree. Ji Suan Ji Gong Cheng. 2002; 28(2): 4143, 78. Chinese with abstract in English.
劉昆, 劉業(yè)政。 基于決策樹的醫(yī)療數(shù)據(jù)分析。 計(jì)算機(jī)工程。 2002; 28(2): 4143, 78.
13 Hu YM, Jia L. Knowledge support system of doctor diagnosisrecognition based on singular rough sets. Ji Suan Ji Gong Cheng Yu Ying Yong. 2004; 40(16): 3132. Chinese with abstract in English.
胡詠梅, 賈磊。 基于奇異粗集的中醫(yī)辨證診治知識(shí)支持系統(tǒng)。 計(jì)算機(jī)工程與應(yīng)用。 2004; 40(16): 3132.
14 On the fragmentation of knowledge, the connection explosion, and assembling other people‘s ideas. http://www.asis.org/Bulletin/Mar01/swanson.html.
15 Swanson DR. Fish oil, Raynaud‘s syndrome and undiscovered public knowledge. Perspect Biol Med. 1986; 30(1): 718.
16 Swanson DR. Migraine and magnesium: eleven neglected connections. Perspect Bio Med. 1988; 31(4): 526557.
17 Swanson DR. Medical literature as a potential source of new knowledge. Bull Med Libr Assoc. 1990; 78(1): 2937.
18 Smalheiser NR, Swanson DR. Using ARROWSMITH: a computerassisted approach to formulating and assessing scientific hypotheses. Comput Methods Programs Biomed. 1998; 57(3): 149153.
19 Gordon MD, Lindsay RK. Toward discovery support systems: a replication, reexamination, and extension of Swanson‘s work on literaturebased discovery of a connection between Raynaud’s and fish oil. JASIST. 1996; 47(2): 116128.
20 Lindsay RK, Gordon MD. Literaturebased discovery by lexical statistics. JASIST. 1999; 50(7): 574587.
21 Weeber M, Klein H, de Jongvan den Berg LT, et al. Using concepts in literaturebased discovery: Simulating Swanson‘s Raynaudfish oil and migrainemagnesium discoveries. JASIST. 2001; 52(7): 548557.
22 Srinivasan P. Text mining: generating hypotheses from MEDLINE. JASIST. 2004; 55(5):396413.
23 Shao YF, Weng J. The application of noninteractive literature knowledge discovery in traditional Chinese medical research. Jiangxi Zhong Yi Xue Yuan Xue Bao. 2005; 17(3): 89. Chinese.
邵運(yùn)峰, 翁捷。 非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)法在中醫(yī)研究中的應(yīng)用。 江西中醫(yī)學(xué)院學(xué)報(bào)。 2005; 17(3): 89.
24 Zhao HY. Ideas on systematizing traditional Chinese medical case records. Changchun Zhong Yi Xue Yuan Xue Bao. 2005; 21(2): 7. Chinese.
天
張鈺琪 10月29日 19:00-21:00
詳情張鈺琪 9月23日 19:30-21:00
詳情官方公眾號(hào)
微信掃一掃
官方視頻號(hào)
微信掃一掃
官方抖音號(hào)
抖音掃一掃