快速建立倪海廈中醫人工智能系統
前一陣子公開討論中醫人工智能之後,許多人來問我如何將倪海廈老師的中醫教學資料轉化成人工智能,網路上也流傳著一些所謂使用倪老師資料建立的中醫智能系統。今天我們就來談談如何快速建立倪海廈中醫人工智能系統。當然,我們也先得討論其中的誤解及侷限性。
提到轉化倪老師教學資料成人工智能系統時,幾乎所有人想到的就是蒐集倪老師所有的資料:五套人紀教材、原本網頁內容、矽谷演講、南寧授課、加州中醫藥大學教課、醫案整理、漢唐一百方等等,好像只要蒐集齊全了,就可以複製倪老師的臨床功力。
很可惜,這是一個美麗的誤解,更是一個不切實際的期待。就好像你把愛因斯坦所有的論文、教學、演講、對話等等都蒐集齊全了,你就想複製一個愛因斯坦的大腦,期待這個人工大腦能繼續思考愛因斯坦未完成的統一場論。這樣的系統,最多只能說是以倪老師的教學資料為依據,找尋及整理倪老師可能會回答問題的方式。畢竟,倪老師留下來的中醫資料,遠遠不足以涵蓋及反應他臨床治病時所有的思維。同時,這樣的系統也容易反應出倪老師部分教學內容中過於武斷的地方,不能呈現出他真實臨床時的小心謹慎。
然而,反過來說,只要你充分了解其局限性,蒐集倪老師所有的資料來建立一個人工智能系統,還是有許多好處:學習倪老師中醫教材的人可以問問題、臨床醫師可以用來建立一些思維觀點、有經驗的中醫師可以和其互動討論等等。
怎麼建立這樣的系統?多年以前,會從「標記 / 貼標籤(tagging)」做起,把所有資料中提到的各種症狀、中藥材、方劑、劑量等等,逐一標記出來,設法連結這些被標記物件的相關性,然後再建立他們對應的「知識樹(knowledge tree)」。這幾年人工智能技術大幅進步,大語言模型(large language model)推動了整個產業的革新。現在,你在人工智能圈內找一個人來問,大概會跟你解釋什麼是「檢索增強生成(RAG / retrieval augmented generation)」、如何在Claude Code或Codex中建立「技能(skills)」、什麼叫做markdown檔案等等。網上甚至有許多教你如何建立這樣系統的課程,只不過如果你不是軟件工程師出身,在你還沒有搞清楚什麼是Node.js、該怎麼連結Github上的repo,如何在Terminal上安裝及執行Claude Code等等最基本的問題時,就已經頭昏腦脹地放棄了!
其實,你可以跳過這些繁冗的學習步驟,直接使用Google NotebookLM,花幾分鐘上傳資料後,就可以直接使用。為了解釋NotebookLM是什麼,我直接叫Google Gemini解釋自家推出的NotebookLM:
=========================
NotebookLM 並不只是單純「閱讀」你的文件,它是透過一個混合型的資料處理管線(Hybrid Pipeline),將非結構化的資料轉換成高度最佳化的私人知識圖譜。這個系統結合了檢索增強生成(RAG)技術與 Google Gemini 模型超長上下文視窗(Context Window)的優勢。整個端到端(End-to-End)的資料管線包含以下五個具體結構階段:
1. 資料提取與多模態解析 (Ingestion & Multi-Modal Parsing)
當檔案被上傳後,系統會將位元組透過 Google 的 Discovery Engine 進行路由分配,並根據不同的資料類型採用不同的解析機制。
文字與文件: 系統會清除 UI 標記、排版樣式和註腳,萃取出乾淨的純文字。
音檔與影片: 透過自動語音辨識(ASR)技術,生成精確且帶有時間戳記的逐字稿。
圖片與簡報(Slides): 利用視覺語言模型(VLMs),將版面配置、圖表以及圖片中的文字轉換成具描述性的文字區塊。
2. 自適應分塊與向量嵌入 (Adaptive Chunking & Vector Embedding)
萃取出原始文字後,系統會為了 AI 的「記憶矩陣」進行處理。
語義分塊(Semantic Chunking): 系統會將文字切割成相互重疊的區塊。它不會生硬地從句子中間切斷,而是根據「語義轉折」(例如段落換行或進入新主題)來移動切割邊界。
生成嵌入(Embedding Generation): 每個區塊都會通過一個嵌入模型。這個數學運算會把文字轉化為密集的高維度向量(也就是意義的數字表徵)。如果兩個句子都在討論「通貨膨脹的財務風險」,即使它們使用的字眼完全不同,它們在向量空間中的位置也會非常接近。
3. 檢索增強生成層 (The Retrieval-Augmented Generation Layer)
當你輸入提示詞(Prompt)時,平台執行的是「語義搜尋」而非死板的「關鍵字比對」。使用者的問題會先被轉換成向量。系統會計算「問題向量」與筆記本專屬資料庫中「所有來源區塊」的數學相似度。系統會浮現出數學上匹配度最高(最相關)的段落。
4. 長脈絡上下文學習 (Long-Context In-Context Learning)
這是 NotebookLM 最核心的最佳化設計。傳統的 RAG 系統為了節省運算空間,只能傳送極少量的文字片段給大型語言模型(LLM)。但 NotebookLM 善用了 Gemini 支援「數百萬個 Token」的上下文視窗。它會把檢索出的高優先順序區塊,連同你的問題,直接「塞進」語言模型的即時活動記憶區。因為模型能夠「同時」查看海量的資料,其內部的注意力機制(Attention Mechanisms)能夠以極快的速度,在你文件的不同部分之間進行交叉比對。
5. 來源溯源與生成 (Source Grounding & Generation)
在生成最終回覆之前,系統會套用一個非常嚴格的系統約束,稱為來源溯源(Source Grounding)。底層模型被強制要求將「注入的資料」視為絕對的真相邊界。它會進行受限的推演:如果一項事實沒有在提供的資料中明確說明,或無法從中合乎邏輯地推導出來,模型就被訓練成必須回答「無法回答」。最後,它會透過 Map-Reduce 找到資料來源的精確座標,生成出我們看到的「可點擊的行內引用標籤」。
=========================
換句話說,NotebookLM已經把你想做及該做的都安排好了,你只需要上傳倪老師的中醫資料,就能馬上擁有一個你專屬的「倪海廈中醫人工智能系統」!
我們用幾個非常簡單的問題來試一試:
=========================
Q:古時候的一錢,是現代的多少克?
A:根據倪海廈老師在《人紀》系列講義與講學中的說明,古時候的「一錢」換算成現代的克數,會因為地區習慣與歷代度量衡的差異而有幾種不同的說法:(一)常見的換算克數:(1) 3.75克:這是台灣傳統常用的度量衡標準。(2) 4克:倪老師在南寧講學時特別建議學生,去藥房抓藥時為了方便計量,可以直接將一錢算作 4克。他幽默地提醒,開處方時不要寫3.75克,否則藥房抓藥會覺得很麻煩。(3) 5克:倪老師提到,有大陸的人士告訴他,他們將一錢當作 5克來使用已經有十幾二十年了。因此在《人紀》的某些教程中,也會將一錢約等於5克。(4) 3.3克或3.6克:也有人考證認為一錢大約是 3.3克 或是 3.6克。(二)倪師強調的核心觀念:首重「黃金比例」 倪老師特別強調,在學習與開立經方時,不需要對差個1克、2克斤斤計較。 經方治病真正的靈魂在於藥物之間的「黃金比例」。只要各味藥之間的相對比例正確(例如葛根湯中葛根、麻黃、桂枝、白芍的比例為 4:3:2:2),即使你將一錢當作3.3克、4克還是5克來抓藥,都是無所謂的。因為中藥最終是加水熬煮成湯劑,這點絕對重量的些微差異,對整體的藥效影響並不大。
Q: 木香餅熱熨法是來自哪一本書的哪一段?
A:木香餅熱熨法是來自倪海廈老師《人紀》系列中的《神農本草經》。具體內容出現在介紹第三十五味藥「木香」的段落與相關註解之中。在文獻的註解段落中,提到了木香配合的其他成方,並引用了醫家(陶弘景)的說法:「木香餅(生地木香作餅),熱熨貼之,治結腫成核,消乳中結核酸痛等,均有靈效。」倪海廈老師在授課時對這一段作了詳細的解說:中醫認為腫塊與硬塊是因為「寒」結聚在體內所引起,治療時可以將生地與木香和在一起做成藥餅(利用生地極為黏稠的特性,與木香粉攪拌製成),將其敷在患處(例如寒疝繞臍痛、尚未破裂的乳房硬塊或腫瘤上),然後用滾熱的物品(如電毯等熱源)隔層去燙它,這就是「熱熨法」。藉由溫熱的刺激,木香行氣與生地活血潤澤的藥力能深入體內,對於消除實寒結成的硬塊有非常好的效果。
Q:病人,男,25歲,亞裔。三天前開始感覺疲勞,肩頸痠痛,怕冷。之後開始頭痛,發燒39攝氏度,咳嗽,咽喉疼痛,有白痰。昨天上午退燒了,但下午開始拉肚子,排泄物黃臭,噁心,食慾很差。建議開什麼中藥方?
A:根據病程的發展,病人的病情已經發生了傳變。昨天上午退燒,代表體表的風寒(表證)已經解除。然而,下午開始出現拉肚子、排泄物黃臭、噁心與食慾差,這在中醫辨證上屬於「表邪化熱下陷腸胃」所引起的「熱利」。以下為您詳細解析病理與建議的處方:(一) 病理分析:表邪下陷與熱利:當感冒發燒時,如果表邪(病毒或風寒)沒有完全從體表透發出去,反而順著津液往內陷,進入腸胃系統時,就會轉化為實熱,引發腸胃發炎(現代常稱為腸病毒症狀)。判斷的關鍵在於「排泄物黃臭」。倪海廈老師指出,寒利的大便通常是清稀且沒有味道的;而只要下利的大便呈現黃色赤色且味道非常惡臭,甚至肛門有灼熱感,就明確代表大腸內有實熱與發炎,屬於「熱利」。(二) 主力處方選擇:葛根黃芩黃連湯(葛芩連湯):針對純熱利且沒有表證(已退燒)的情況,首選的經方是葛芩連湯。藥理機制:方中的黃芩與黃連是非常寒涼的藥,能強力清除腸胃的發炎與熱毒;葛根能夠將腸胃的水分與津液往上升提,從而止住下利;甘草則用來解毒,把腸胃中壞死的食物分解排掉並保護腸胃。(三)針對「噁心」與「食慾差」的處理與鑑別 病人目前伴隨有明顯的噁心與食慾不振,代表胃氣也受到熱邪與水分的干擾而上逆,在處方上需要做精準的鑑別與加減。若無腹痛(純下利與噁心): 如果病人單純是拉肚子、噁心,但肚子沒有絞痛,除了使用葛芩連湯外,因為病人有「噁心」,必須加入半夏與生薑。半夏能強效去水止嘔,生薑能散胃中停水並解半夏的毒。 另外,若病人同時感覺胃部(心下)脹滿堵塞、肚子會咕嚕咕嚕叫(腸鳴),這也極可能是半夏瀉心湯或生薑瀉心湯證。這類處方同樣含有黃芩、黃連來清熱,並重用半夏止嘔,再加上人參、大棗來補足腸胃津液,讓食慾(胃氣)恢復。若伴隨肚子絞痛: 這是一個極重要的鑑別點。如果病人在拉黃臭大便、噁心的同時,伴隨有肚子絞痛,處方就必須改為「黃芩加半夏生薑湯」。因為葛芩連湯中沒有止腹痛的藥,而黃芩湯系列中含有「白芍」,白芍是張仲景專門用來治療腹痛的要藥。(四)總結建議: 由於病人已退燒但出現黃臭熱利,若沒有肚子痛,應以葛芩連湯為主,並加入半夏、生薑來止住噁心;若有肚子痛,則應選用黃芩加半夏生薑湯。在食慾尚未恢復前,飲食應以清淡的熱稀飯為主,避免肉類等難消化食物,讓胃氣慢慢恢復即可。
=========================
再次強調,這樣快速建立的系統,是為了加速學習及提供參考,並非能直接應用到臨床看診。真正能應用在臨床的人工智能系統,還需要有許多複雜的環節,以後有時間,我們再來好好討論。
同時,每一個人從這樣系統中得到的幫助也大不相同,越深入研習中醫、臨床經驗越豐富的人,就越能提出一系列有意義、相關性大的問題,也就越能和系統正向互動,從各種不同角度判斷出正確的方向。自己不好好學習、盲目相信人工智能的人,不但容易被系統誤導,也容易基於自己的偏見及無知而提出誤導系統的問題。
再好的工具,也只是工具,是否能成事,在於使用工具的人,不在於工具本身。面對人工智能的新世界,第一步不是急著去學習人工智能的各種工具,而是對人工智能的能力及侷限有基本的認識,有興趣的讀者,可以從Antropic Academy (https://www.anthropic.com/learn)中幾個簡介課程開始,譬如「AI Fluency: Framework & Foundations」和「AI Capabilities and Limitations」兩個非技術課程。而面對偏向需要動手參與的部分,也不需要恐慌害怕,你可以叫人工智能教你如何使用人工智能的各種工具。
套一句現在流行的名稱「文科生的逆襲」:人工智能的世界,是文科生逆襲理科生的時代。嚴格來說,是指那些高度了解文化、歷史、美學的人群,能夠對人工智能產生的結果,提出無比苛刻鑑賞標準的少數人們。面對年輕一代的讀者和病人,我最誠懇的建議是,放下手機,停止刷屏,把大部分工作外的時間花在了解文化、歷史、美學上面,讓自己走在機器的前面,而不是等著被機器取代。
發佈留言