• <input id="agia8"><label id="agia8"></label></input>
  • <code id="agia8"></code>
  • <input id="agia8"><label id="agia8"></label></input>
    <code id="agia8"></code><object id="agia8"></object><code id="agia8"></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <strong id="agia8"><sup id="agia8"></sup></strong>
  • <progress id="agia8"></progress>
    <div id="agia8"></div>
  • <dl id="agia8"><s id="agia8"></s></dl>
    <dl id="agia8"><ins id="agia8"><thead id="agia8"></thead></ins></dl>
  • <div id="agia8"></div>
  • 加載中........
    ×

    利用真實世界數據做好研究:關鍵的數據質量問題

    2019/3/12 作者:李侗桐   來源:醫咖會 我要評論2
    Tags: 真實世界數據  

    本文我們來聊一聊真實世界數據質量的相關問題。

    原始數據的質量

    在使用RWD的研究中,原始數據的質量取決于數據完整性和準確性。一個關鍵問題在于數據隨機缺失(missing at random)的程度:隨機缺失數據會減低測量的準確性,而非隨機缺失會導致結果偏倚。

    因此,研究者需要仔細判斷數據的真實性(即該數據是否可以反映真實的情況)和可靠性(即收集的數據是否具有一致性)。除了數據質量,還需要考慮數據的全面性。RWD的多數來源都缺少對患者預后、診療和結局信息的記錄,例如體能狀態、疾病分期、治療意向及疾病負擔等數據,這在療效比較研究中尤其重要。

    一些新型RWD嘗試通過納入其他的患者/疾病相關變量來解決這一問題。2018年的一項研究中,Khozin等利用電子健康檔案(EHR)數據分析真實世界中納武單抗(nivolumab)與派姆單抗(pembrolizumab)治療非小細胞肺癌的結局差異。但是,以往常見的RWD數據來源中并不包含這項研究關注的預后指標,如吸煙情況和生物標記物信息等(包括PD-L1、EGFR或ALK)。

    針對這種情況,研究者可以通過增加新的數據源來保證RWD研究數據的全面性。經典的例子如增加患者自評癥狀或兒童癌癥幸存者的受教育情況等。當然,是否可以將其他數據源與癌癥登記數據進行關聯,取決于研究所在地的法律和倫理限制。

    檢查數據質量有以下幾種方法:通過研究對比病案來源的電子數據和隨機抽樣的患者數據;通過分析評估電子數據的真實性;通過數據清理,檢查數據的邏輯錯誤,如不可能的出生日期或單個患者進行了多次根治性切除術。

    舉個例子,我們在一些研究中需分析膀胱癌患者膀胱切除術后的預后,發現電子數據存在問題,就對原始數據進行了全面的復查。例如,關于治療記錄的不同數據來源(如醫療費用記錄 vs 醫院手術記錄)表明,有一些歸類到進行過膀胱切除術的膀胱癌患者,可能只是做了膀胱鏡檢查(限制了數據的真實性)。同時,如果治療中心的患者數較少,容易發生編碼錯誤,影響數據質量(限制了數據的可靠性)。為避免這種偏倚,我們獲取了所有膀胱癌患者的原始病理報告,復核了所有患者的原始記錄,找出進行了膀胱切除術的患者及其疾病分期。

    影響原始數據質量的因素包括:數據的收集方式(被動收集與主動收集),調查員能力、培訓和監督,外部因素(如收集數據對醫生收入/醫院資金的影響或對數據完整性的重視程度),數據審核的周期和程度等。

    在被動收集數據的癌癥注冊登記中,數據是由參與機構定期提交給總中心機構,監管力度小(例如使用定期自動數據采集)。而主動收集數據的癌癥注冊登記,是由經過培訓的調查員(如癌癥登記員)主動收集相關病例并提交給總中心機構。

    數據關聯的質量

    多數RWD研究的數據來自于多個數據集,分析之前需要先將不同數據集進行關聯。在理想情況下,不同數據集可以通過一個唯一編號進行關聯。例如,加拿大安大略省只有一個醫保支付方,可以通過政府規定的醫保號關聯數據集。另一種關聯方法是概率關聯,即通過一組變量(如年齡、姓名或住址)判斷不同數據集之間的匹配程度,根據各變量計算一個分數,設定閾值后判斷是否匹配[1]。當然,概率關聯比唯一編號關聯的準確性要差一些。

    衍生變量的質量

    在RWD研究中,最費時費力也是最關鍵的步驟就是確定患者、治療和結局的分組,這被稱為患者組別或暴露的“拆分和重組”。研究者必須在結果分析前確定分組標準,否則容易為了獲得期望結果而隨意調整分組。即使不是刻意尋求期望結果,研究者嘗試不同分組的過程也會增加出現期望結果的可能性。

    此外,不規范的情況下,研究者可能也不會記錄在分析過程中嘗試過的不同分組標準。臨床試驗是事前確定患者亞組,但RWD多為事后分組。RWD的患者分組應咨詢臨床醫生的意見,根據臨床意義進行分組。

    例如,我們在研究膀胱癌和肺癌診療模式時,依據推斷出的治療意向進行分組。即根據臨床觀點和經驗,定義術后16周內接受的化療和放療為輔助治療,16周后因為疾病進展而開始的治療為姑息治療。

    同時,我們還分析了變量值的分布情況從而判斷截斷點的合理性。舉例來說,如果我們設置截斷點為6周,即縮短術后時間,我們可能會錯誤地排除一些接受輔助治療的患者;如果我們設置截斷點為32周,即延長術后時間,我們可能會錯誤地納入了一些通過化療治療早期轉移疾病的患者。

    當然,哪種嘗試都不是完美的,對治療意向的間接推斷應該一直保持謹慎。這個探討晚期膀胱癌患者膀胱切除術的研究,可能會得出錯誤的結論,因為依據的是衍生變量,很可能將更早期的癌癥患者(接受根治性治療)錯分為(既往經歷過膀胱切除術的)姑息治療患者。

    正因如此,研究者自行分組的數據集質量可能比根據醫院診斷編碼判斷分組要差一些。英國研究者提出了RWD質量評估辦法,對許多概念做了定義[2,3]。此外,《JAMA Surgery》也在2018年發表了一系列文章,為改善數據庫研究的科學性提供了幫助[4]。

    下一篇內容我們將通過研究實例,詳細闡述如何利用患者、治療和結局真實世界數據來開展研究,敬請關注!

    參考文獻:

    1. When to conduct probabilistic linkage vs. deterministic linkage? A simulation study. J Biomed Inform. 2015; 56: 80-6

    2. Directory of clinical databases: improving and promoting their use. Qual Saf Health Care. 2003; 12(5):348-52.

    3. Potential use of routine databases in health technology assessment. Health Technol Assess. 2005; 9(20):1-92, iii-iv.

    4. Practical Guide to Surgical Data Sets: Surveillance, Epidemiology, and End Results (SEER) Database. JAMA Surg. 2018; 153(6):588-9.

    本文整理自綜述:

    Nat Rev Clin Oncol. 2019 Jan 30. doi: 10.1038/s41571-019-0167-7.



    小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

    只有APP中用戶,且經認證才能發表評論!馬上下載

    SCI我的夢

    謝謝分享

    (來自:梅斯醫學APP)

    2019/3/22 1:36:35 回復

    136****0883暫無昵稱

    謝謝分享

    (來自:梅斯醫學APP)

    2019/3/13 14:12:45 回復

    web對話
  • <input id="agia8"><label id="agia8"></label></input>
  • <code id="agia8"></code>
  • <input id="agia8"><label id="agia8"></label></input>
    <code id="agia8"></code><object id="agia8"></object><code id="agia8"></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <strong id="agia8"><sup id="agia8"></sup></strong>
  • <progress id="agia8"></progress>
    <div id="agia8"></div>
  • <dl id="agia8"><s id="agia8"></s></dl>
    <dl id="agia8"><ins id="agia8"><thead id="agia8"></thead></ins></dl>
  • <div id="agia8"></div>
  • 华东十五选五预测号码
  • <input id="agia8"><label id="agia8"></label></input>
  • <code id="agia8"></code>
  • <input id="agia8"><label id="agia8"></label></input>
    <code id="agia8"></code><object id="agia8"></object><code id="agia8"></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <strong id="agia8"><sup id="agia8"></sup></strong>
  • <progress id="agia8"></progress>
    <div id="agia8"></div>
  • <dl id="agia8"><s id="agia8"></s></dl>
    <dl id="agia8"><ins id="agia8"><thead id="agia8"></thead></ins></dl>
  • <div id="agia8"></div>
  • <input id="agia8"><label id="agia8"></label></input>
  • <code id="agia8"></code>
  • <input id="agia8"><label id="agia8"></label></input>
    <code id="agia8"></code><object id="agia8"></object><code id="agia8"></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <code id="agia8"><label id="agia8"></label></code>
  • <strong id="agia8"><sup id="agia8"></sup></strong>
  • <progress id="agia8"></progress>
    <div id="agia8"></div>
  • <dl id="agia8"><s id="agia8"></s></dl>
    <dl id="agia8"><ins id="agia8"><thead id="agia8"></thead></ins></dl>
  • <div id="agia8"></div>