1、兩步識別保證鑒別模型的準確性
提高鑒別模型的正確率是建立紅外鑒別模型的核心。在建模過程中,我們遇到兩類問題:第一類問題,模型的分辨能力不夠,使對一些紅外譜圖差異較小的物質不能被正確識別。如注射用阿莫西林鈉與注射用阿莫西林鈉/克拉維酸鉀(5:1)制劑,在全譜(4000~12000cm-¹)范圍內比較,二者的紅外光說非常相似,采用全譜識別時,二者不能相互識別;但利用局部特征譜段(如4100~4800cm-¹)識別,二者的差異顯現(xiàn)。
第二類問題,閾值無法彼此兼顧,使得一些原本具有差異的紅外圖譜錯誤識別。如對羅紅霉素片的鑒別,由于國內18家生產企業(yè)的工藝、處方不同,使得在大環(huán)內酯抗生素(包括紅霉素、琥乙紅霉素、依托紅霉素、羅紅霉素、克拉霉素、阿奇霉素、乙酰螺旋霉素、麥迪霉素、麥白霉素、吉他霉素、、乙酰吉他霉素)片劑鑒別模型中,羅紅霉素片的鑒別閾值(0.72)偏大;導致在驗證中300張維生素C片的紅外光譜(維生素C片平均光譜與羅紅霉素片平均光譜間的距離為0.68)有281張被錯誤的識別為羅紅霉素片。
為解決上述問題,我們確定了以下建模思路:(1)結構相近的同系物藥物放在一組進行識別,如對抗感染藥物,按其化學結構分為頭孢菌素類、青霉素類、大環(huán)內酯類、氨基糖苷類等,再根據其制劑(粉針劑、膠襄劑、片劑)的形式,分別建立鑒別型。(2)采用兩步鑒別的方案。第一步識別模型,利用同第物藥物紅外圖譜的差異(必要時利用相對較窄的特征譜段),主要解決模型中同系物之間的相互識別問題;第二步確證模型,利用較寬的說段,解決可能與模型外品種的混淆問題,提高鑒別模型的準確性。
2、閾值調整保證鑒別模型的穩(wěn)健性
建立定性模型時,我們以樣品光譜與該品種平均光譜的距離(Hit)表征光譜的差異,并以Hit值為指標進行聚類分析,進而實現(xiàn)對樣呂的識別。常用的距離表示方法有歐氏距離法和馬氏距離法。歐氏距離法計算距離時,只能給出樣品與平均光譜的吻合程度,即相對距離,不能反映一類樣品的分布情況;而馬氏距離法在計算距離時,根據樣品的分布情況在不同方向上給出不同的權重。在二維坐標上中,由歐氏距離法劃定的邊界圓形,而由馬氏距離法劃定的邊界通常為橢圓形。只有當樣品在平均光譜周圍呈完全隨機分布時,歐氏的距離法與馬氏距離法劃定的邊界才相生合。我們在特定矢量空間中,對Hit值的分布規(guī)律進行了探討,證明Hit值的分布基本呈正態(tài)分布;不同工藝的相同產品的NIR圖譜的差異越大,其分布越寬。如在注射B-內酰按類抗生素鑒別模型中,15個企業(yè)33批注射用頭孢哌酮鈉,594張圖譜的Hit值呈下態(tài)分布;而在大環(huán)內酯類抗生素片劑鑒別模型中,300張紅霉素片的圖譜的Hit值雖然偏態(tài)分布,但可作為正態(tài)分布處理。由于Hit值的分布基本呈正態(tài)分布,理論上90%的樣品的Hit值應分布在MD+1.65Sdeu(MD 為樣品光譜距離平均光譜的平均距離,Sdeu為其標準偏差)范圍內,95%的樣品的Hit值應分布在MD+2Sdeu范圍內,99%的樣品的Hit值應分布在MD+3Sdeu范圍內。因此實驗中可根據統(tǒng)計規(guī)律對閾值進行調整,保證模型至少對95%的樣品能夠識別。
對于多企業(yè)不同工藝生產品種,由于收集到的樣品可能不均衡,使得樣本的各種差異的權重不同。如39批注射用頭孢唑林鈉,在建模譜段進行聚類分析,所有樣品可以分為6組,第1組包括15批,第2組包括8批,第3級包括1批,第4級包括3批,第5組包括9批,第6組包括3批,籌備組組樣品的物理特性(結晶度、粒度)不同。如果用全部樣呂求其每一亞類的平均光譜,再利用求得的平均光譜構建該樣品的平均光譜,以調整收集樣本不均勻所造成的平均光譜的偏差。對注射用頭孢唑林鈉樣品,比較兩種方法構建的平均光譜的差異:由所有樣品Hit值的概率密度分布圖可見,平均光譜調整后樣本更趨于正態(tài)分布,且Hit值的標準偏差變小,即樣品的分布更為均勻。
3、已建立的模型
從2004年12月至今,我們已經建成了各種定性模型約150個,可對約300余種藥物進行鑒別。涉及抗感染藥物(抗生素)、消化系統(tǒng)藥物、心血管藥物、呼吸系統(tǒng)藥物等常用基本藥物。并已經完成了建立通用性定量模型的可行性探討,建立了10余種定量模型。26種頭孢菌素粉針劑定性模型的結構。