Warunkiem przeprowadzenia porównania pośredniego jest dokonanie oceny heterogeniczności metodycznej i klinicznej badań włączonych do analizy. Wytyczne zalecają dokładną analizę badanej populacji, interwencji stanowiącej ramię referencyjne i punktów końcowych, a następnie przedstawienie w formie tabelarycznej zidentyfikowanych różnic. o ile heterogeniczność badań jest zbyt duża, należy poprzestać na jakościowym zestawieniu wyników. W przypadku braku możliwości przeprowadzenia porównania przez ramię referencyjne można rozważyć zastosowanie jednej z metod wskazanych przez wytyczne HTA (health technology assessment): proste zestawienie badań bez dostosowania (naive comparison), porównanie z danymi historycznymi (benchmarking with historical controls), porównanie wyników badań po korekcie o różnice w charakterystyce populacji (matching adjusted indirect comparison – MAIC) (ryc. 1).
Wytyczne HTA podkreślają, iż interpretacja wyników porównań pośrednich powinna być bardzo ostrożna. Należy również wskazać ograniczenia oraz przeprowadzić analizę wrażliwości pozwalającą na ocenę wpływu poszczególnych badań (zwłaszcza tych odbiegających metodologicznie) na wynik porównania1.
Niedostosowane porównanie pośrednie
Wśród metod niedostosowanych wyróżnia się pierwotne porównanie oszacowań punktowych i wyników dla pojedynczych ramion z niezależnych badań, tak jakby pochodziły z jednego badania. Metoda ta nie jest zalecana, ponieważ ignoruje randomizowaną naturę materiałów źródłowych. Kolejną wadą takiego podejścia jest ignorowanie mocy statystycznej oszacowań i wykluczenie wnioskowania na podstawie przedziałów ufności1.
Dostosowanie metodą Buchera
Metodą dostosowanego porównania pośredniego jest metoda Buchera. Pierwotnie została wprowadzona w celu obliczania ilorazu szans (odds ratio – OR) w sytuacji, gdy chcemy porównać A vs C, podczas gdy mamy dostępne porównania bezpośrednie A vs B i B vs C. Metoda Buchera może być zastosowana tylko do badań dwuramiennych. Zakłada ona również, iż względna skuteczność ocenianej interwencji jest taka sama we wszystkich badaniach włączonych do analizy, dlatego istotne jest, żeby uwzględnione badania były zbliżone pod kątem metodyki, punktów końcowych, stosowanych interwencji i charakterystyki populacji. W celu oszacowania efektu z taką samą precyzją jak w przypadku porównania bezpośredniego należy wykorzystać 4-krotnie więcej danych, co powoduje, iż z matematycznego punktu widzenia jest to metoda mniej efektywna niż porównanie bezpośrednie1.
Porównanie pośrednie z dopasowaniem populacji
Analiza MAIC jest metodą porównania pośredniego, której celem jest zniesienie heterogeniczności wynikającej z odmiennej charakterystyki populacji w badaniach włączonych do porównania pośredniego, aby uzyskać wiarygodniejsze porównanie danych interwencji. W przeciwieństwie do klasycznego porównania pośredniego wykorzystującego dane zagregowane metoda MAIC wymaga dostępu do danych poszczególnych pacjentów (individual patient data – IPD) z przynajmniej jednej interwencji. Na tej podstawie wykonuje się ważenie efektu, aby określić, jaki wynik powinien być uzyskany w populacji badania porównawczego1.
Metoda MAIC może być stosowana do badań jednoramiennych lub badań bez wspólnego komparatora. W takich sytuacjach, jak interwencje chirurgiczne, choroby rzadkie, choroby nowotworowe o złym rokowaniu, zastosowanie IPD może być jedynym sposobem dostosowania różnic między próbami i powinno być preferowane w stosunku do porównań nieskorygowanych. Brak wspólnego ramienia porównawczego należy jednak odnotować jako istotne ograniczenie, ponieważ walidacja dopasowania lub zastosowanie względnych miar efektu nie będą możliwe2. W związku z powyższym wykonanie wiarygodnych porównań pośrednich stanowi wyzwanie i zawsze należy traktować ich wyniki z ostrożnością. Przykładem zastosowania metody MAIC jest porównanie terapii stosowanych w rdzeniowym zaniku mięśni przedstawione w publikacji Ribero i wsp. z 2022 r.3. Jednym z warunków adekwatnego porównania pośredniego jest kompatybilność porównywanych badań. Nie jest on spełniony w przypadku analizy Ribero i wsp. Autorzy porównują badanie fazy 2/3 FIREFISH (otwarte, jednoramienne) z badaniem fazy 3 ENDEAR (randomizowane, podwójnie zaślepione, kontrolowane placebo). Popełniono istotny błąd dotyczący czasu obserwacji, zestawiając przedwcześnie zakończone po 9 miesiącach badanie ENDEAR (wysoce istotne wyniki w pierwszych miesiącach leczenia) z ponad 12-miesiecznym FIREFISH i nie rozważając porównania tego ostatniego z otwartym przedłużeniem ENDEAR – badaniem SHINE. Ribero i wsp. w sposób niezgodny z przyjętymi wytycznymi zestawiają badanie wyjściowe z zawężoną populacją (FIREFISH) z badaniem włączającym szerszą populację na podstawie danych zagregowanych (ENDEAR). Czynniki, które miałyby zrównoważyć porównywane populacje, zostały ograniczone do trzech: średniego wieku przyjęcia pierwszej dawki, średniego czasu trwania choroby oraz średniego wyniku w skali CHOP-INTEND. Pomimo uwzględnienia danych jednostkowych z badania FIREFISH i próby dopasowania ich do populacji z badania ENDEAR nie uwzględniono kluczowych różnic wynikających z innego sposobu opisu populacji włączonej i kryteriów wykluczenia.
W badaniu ENDEAR 51 proc. badanych pacjentów wymagało wsparcia żywieniowego, podczas gdy w publikacji Ribero i wsp. uwzględniono jedynie 9-procentową subpopulację chorych żywionych przez zgłębnik gastrostomijny. Ponadto podczas analiz charakterystyk populacji założono jednorodność w zakresie funkcji układu oddechowego. Tymczasem szczegółowa analiza kryteriów wykluczenia z badania FIREFISH wskazuje, iż z badania zostali wykluczeni chorzy hospitalizowani w ciągu ostatnich 2 miesięcy z powodu zaburzeń oddychania, stosujący wentylację nieinwazyjną w czasie czuwania, z hipoksemią w czasie czuwania, z niewydolnością oddechową w wywiadzie lub ciężkim zapaleniem płuc i brakiem pełni sprawności wentylacyjnej w czasie badania przesiewowego. Warto podkreślić, iż z badania ENDEAR takich chorych nie wykluczono. Błędne dopasowanie populacji z tych dwóch badań pod względem tak istotnych parametrów skłania ku temu, by porównania MAIC przedstawione we wspomnianej publikacji uznać za mało wiarygodne.
Powyżej analizowane różnice w błędnie dopasowanych populacjach oraz jakość analizy MAIC zostały również skomentowane przez agencje oceny technologii medycznych na całym świecie.
Piśmiennictwo:
1. Szwarc N, Kaczorek-Juszkiewicz A, Kalbarczyk A. Porównania pośrednie w analizach klinicznych ocenianych przez AOTMiT – przegląd i opis zastosowanych metod. Agencja Oceny Technologii Medycznych i Taryfikacji, Warszawa 2019.
2. Signorovitch JE, Sikirica V, Erder HM i wsp. Matching-adjusted indirect comparisons: a new tool for timely comparative eff ectiveness research. Value Health 2012; 15: 940-947.
3. Ribero VA, Daigl M, Mart Y i wsp. How does risdiplam compare with other treatments for types 1–3 spinal muscular atrophy: a systematic literature review and indirect treatment comparison. J Comp Eff Res 2022; 11: 347-370.
Opracowanie: Damian Matusiak i Małgorzata Solarczyk.
Porównania pośrednie mają ograniczoną wartość
Newseria
W jakim stopniu lekarze kierują się wynikami analiz pośrednich przy wyborze terapii? Jakie parametry należy uwzględnić, aby takie analizy były najbardziej wiarygodne? Zapytaliśmy o to prof. dr hab. n. med. Katarzynę Kotulską-Józwiak z Kliniki Neurologii i Epileptologii Instytutu „Pomnik – Centrum Zdrowia Dziecka”.
Czy podejmowanie decyzji terapeutycznych lub wyciąganie wniosków na podstawie analiz pośrednich, między innymi analiz MAIC, w chorobach rzadkich jest adekwatne?
– Chciałabym podkreślić, iż każde porównanie jest wartościowe i każdemu warto się przyjrzeć. W chorobach rzadkich, zwłaszcza w przypadku wprowadzania nowych terapii we wcześniej nieuleczalnych schorzeniach, bardzo rzadko mamy do czynienia z porównaniami bezpośrednimi leków w ramach badań klinicznych. Porównania pośrednie mogą zatem czasami uzupełniać tę lukę, ale należy pamiętać, iż mają ograniczoną wartość, jeżeli różnią się populacje badanych pacjentów oraz punkty końcowe. W przypadku rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) należy wspomnieć jeszcze o jednym uwarunkowaniu, znacznie ograniczającym możliwość wykorzystania porównań leków w praktyce klinicznej. W Polsce program lekowy jest dość ograniczający, jeżeli chodzi o wybór terapii. Mamy bardzo wyraźne wskazania, dla kogo jest przeznaczona terapia nusinersenem (najszersza grupa pacjentów), dla kogo terapia doustna rysdyplamem i dla kogo terapia genowa lekiem onasemnogen abeparwowek. W znacznym stopniu są to wskazania odmienne. W zasadzie jedyna dowolność i możliwość wyboru terapii istnieje w części przypadków w zakresie terapii genowej, gdzie u niektórych pacjentów można zastosować bądź nusinersen, bądź terapię genową. Z kolei wykorzystanie rysdyplamu jest możliwe tylko wtedy, gdy istnieją trudności w podaniu nusinersenu lub przeciwwskazania do jego stosowania. Warto wspomnieć jeszcze o jednym zjawisku, które widzimy bardzo wyraźnie w wynikach leczenia pacjentów w polskim programie lekowym. Najwcześniej włączane do leczenia grupy obejmowały najciężej chorych pacjentów, często długo już chorujących. Pacjenci włączani w ostatnim czasie do terapii to zwykle świeżo zdiagnozowane przypadki. Wyraźnie widać różnice nie tylko w ich stanie wyjściowym, ale także w skuteczności leczenia, co odzwierciedla udowodnione twierdzenie o wyższej skuteczności wcześniejszego leczenia. To stwarza dodatkową trudność przy porównaniach, ponieważ trzeba uwzględnić także kryterium czasu i dostępność terapii. Co ważne, ta trudność dotyczy również grup pacjentów leczonych tym samym lekiem.
„Porównania pośrednie w chorobach rzadkich, w tym w SMA, maja ograniczona wartość, jeżeli różnią się populacje badanych pacjentów, punkty końcowe oraz zastosowane skale oceny. Aby dokonywać analizy porównawczej skuteczności, powinniśmy mieć do dyspozycji te sama skale, ten sam czas obserwacji i te same parametry”
Jakie czynniki – zdaniem pani profesor jako eksperta w leczeniu SMA – należałoby wziąć pod uwagę podczas próby porównania skuteczności terapii stosowanych w tej chorobie?
– Przede wszystkim należałoby uwzględnić populacje pacjentów, którzy są leczeni. Nie tylko wiek, typ SMA, liczbę kopii genu SMN2, które są oczywiście czynnikami bardzo łatwymi do sprawdzenia, ale także stopień zaawansowania choroby i czas jej trwania od wystąpienia pierwszych objawów do momentu, w którym terapia została włączona. To są czynniki, które wydają się w największym stopniu wpływać na wynik leczenia i powinny być brane pod uwagę. Druga rzecz to mierniki skuteczności, tzn. punkty końcowe w badaniach czy w praktyce klinicznej. Znaczy to, iż powinniśmy mieć do dyspozycji tę samą skalę, ten sam czas obserwacji, te same parametry, na które będziemy patrzeć, porównując skuteczność różnych terapii.
Jaki wpływ na wyniki dotyczące przeżycia lub przeżycia wolnego od zdarzenia w badaniu ENDEAR ma włączona do niego populacja pacjentów?
– Badanie ENDEAR było pierwszym badaniem w SMA typu 1, czyli w bardzo ciężkiej postaci choroby, w której objawy występują u niemowląt do 6. miesiąca zżycia i w naturalnym przebiegu ponad 90 proc. pacjentów wymaga włączenia wentylacji mechanicznej bądź umiera do 2. roku życia. Niewątpliwie na wyniki tego badania miały wpływ wiek pacjentów i stopień zaawansowania choroby przed włączeniem leczenia. W tym przypadku były to dzieci z objawami choroby, a wiemy już, iż rozpoczęcie leczenia jeszcze przed wystąpieniem objawów jest zdecydowanie najskuteczniejsze. W związku z tym u pacjentów mających objawy spodziewamy się nieco gorszych efektów niż u pacjentów w okresie przedobjawowym. w tej chwili w Polsce powszechnie wykonuje się diagnostykę w kierunku SMA w ramach badań przesiewowych noworodków. Diagnozujemy SMA bardzo wcześnie, w większości przypadków właśnie w przedobjawowej fazie choroby, więc w praktyce klinicznej spodziewam się lepszych wyników niż opisane w raportach z badania ENDEAR.
„Polski program lekowy jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne w tej chwili możliwości terapii SMA”
Czy można rzetelnie porównać badania FIREFISH i ENDEAR, biorąc pod uwagę opisane różnice pomiędzy nimi?
– To zależy od tego, w jaki sposób to porównanie się wykona. Należy podkreślić, iż niestety w badaniach FIREFISH i ENDEAR nie zastosowano takich samych parametrów, co pozwoliłoby łatwo taką analizę przeprowadzić. Oczywiście wszyscy bardzo tego żałujemy, bo chcielibyśmy wiedzieć, jaką skutecznością i jakim bezpieczeństwem charakteryzuje się każdy z badanych leków. Być może dzięki temu można by wskazać w grupie pacjentów z SMA takich, dla których skuteczniejsze byłoby leczenie rysdyplamem, i takich, którzy bardziej skorzystają z terapii nusinersenem. Mam jednak nadzieję, iż w przyszłości będziemy mieć do dyspozycji nowe badania i porównania nie tylko z badań klinicznych, ale także z codziennej praktyki. Coraz więcej państw wykonuje badania przesiewowe noworodków w kierunku SMA, w związku z czym będziemy mogli porównać efekty leczenia podjętego wcześniej niż w badaniach klinicznych i to zarówno u pacjentów mających objawy, jak i w okresie przedobjawowym. Przygotowujemy takie dane również na podstawie polskiego programu lekowego, który jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne w tej chwili możliwości terapii SMA.
Rozmawiała Agata Misiurewicz-Gabi.
Newseria
W jakim stopniu lekarze kierują się wynikami analiz pośrednich przy wyborze terapii? Jakie parametry należy uwzględnić, aby takie analizy były najbardziej wiarygodne? Zapytaliśmy o to prof. dr hab. n. med. Katarzynę Kotulską-Józwiak z Kliniki Neurologii i Epileptologii Instytutu „Pomnik – Centrum Zdrowia Dziecka”.
Czy podejmowanie decyzji terapeutycznych lub wyciąganie wniosków na podstawie analiz pośrednich, między innymi analiz MAIC, w chorobach rzadkich jest adekwatne?
– Chciałabym podkreślić, iż każde porównanie jest wartościowe i każdemu warto się przyjrzeć. W chorobach rzadkich, zwłaszcza w przypadku wprowadzania nowych terapii we wcześniej nieuleczalnych schorzeniach, bardzo rzadko mamy do czynienia z porównaniami bezpośrednimi leków w ramach badań klinicznych. Porównania pośrednie mogą zatem czasami uzupełniać tę lukę, ale należy pamiętać, iż mają ograniczoną wartość, jeżeli różnią się populacje badanych pacjentów oraz punkty końcowe. W przypadku rdzeniowego zaniku mięśni (spinal muscular atrophy – SMA) należy wspomnieć jeszcze o jednym uwarunkowaniu, znacznie ograniczającym możliwość wykorzystania porównań leków w praktyce klinicznej. W Polsce program lekowy jest dość ograniczający, jeżeli chodzi o wybór terapii. Mamy bardzo wyraźne wskazania, dla kogo jest przeznaczona terapia nusinersenem (najszersza grupa pacjentów), dla kogo terapia doustna rysdyplamem i dla kogo terapia genowa lekiem onasemnogen abeparwowek. W znacznym stopniu są to wskazania odmienne. W zasadzie jedyna dowolność i możliwość wyboru terapii istnieje w części przypadków w zakresie terapii genowej, gdzie u niektórych pacjentów można zastosować bądź nusinersen, bądź terapię genową. Z kolei wykorzystanie rysdyplamu jest możliwe tylko wtedy, gdy istnieją trudności w podaniu nusinersenu lub przeciwwskazania do jego stosowania. Warto wspomnieć jeszcze o jednym zjawisku, które widzimy bardzo wyraźnie w wynikach leczenia pacjentów w polskim programie lekowym. Najwcześniej włączane do leczenia grupy obejmowały najciężej chorych pacjentów, często długo już chorujących. Pacjenci włączani w ostatnim czasie do terapii to zwykle świeżo zdiagnozowane przypadki. Wyraźnie widać różnice nie tylko w ich stanie wyjściowym, ale także w skuteczności leczenia, co odzwierciedla udowodnione twierdzenie o wyższej skuteczności wcześniejszego leczenia. To stwarza dodatkową trudność przy porównaniach, ponieważ trzeba uwzględnić także kryterium czasu i dostępność terapii. Co ważne, ta trudność dotyczy również grup pacjentów leczonych tym samym lekiem.
„Porównania pośrednie w chorobach rzadkich, w tym w SMA, maja ograniczona wartość, jeżeli różnią się populacje badanych pacjentów, punkty końcowe oraz zastosowane skale oceny. Aby dokonywać analizy porównawczej skuteczności, powinniśmy mieć do dyspozycji te sama skale, ten sam czas obserwacji i te same parametry”
Jakie czynniki – zdaniem pani profesor jako eksperta w leczeniu SMA – należałoby wziąć pod uwagę podczas próby porównania skuteczności terapii stosowanych w tej chorobie?
– Przede wszystkim należałoby uwzględnić populacje pacjentów, którzy są leczeni. Nie tylko wiek, typ SMA, liczbę kopii genu SMN2, które są oczywiście czynnikami bardzo łatwymi do sprawdzenia, ale także stopień zaawansowania choroby i czas jej trwania od wystąpienia pierwszych objawów do momentu, w którym terapia została włączona. To są czynniki, które wydają się w największym stopniu wpływać na wynik leczenia i powinny być brane pod uwagę. Druga rzecz to mierniki skuteczności, tzn. punkty końcowe w badaniach czy w praktyce klinicznej. Znaczy to, iż powinniśmy mieć do dyspozycji tę samą skalę, ten sam czas obserwacji, te same parametry, na które będziemy patrzeć, porównując skuteczność różnych terapii.
Jaki wpływ na wyniki dotyczące przeżycia lub przeżycia wolnego od zdarzenia w badaniu ENDEAR ma włączona do niego populacja pacjentów?
– Badanie ENDEAR było pierwszym badaniem w SMA typu 1, czyli w bardzo ciężkiej postaci choroby, w której objawy występują u niemowląt do 6. miesiąca zżycia i w naturalnym przebiegu ponad 90 proc. pacjentów wymaga włączenia wentylacji mechanicznej bądź umiera do 2. roku życia. Niewątpliwie na wyniki tego badania miały wpływ wiek pacjentów i stopień zaawansowania choroby przed włączeniem leczenia. W tym przypadku były to dzieci z objawami choroby, a wiemy już, iż rozpoczęcie leczenia jeszcze przed wystąpieniem objawów jest zdecydowanie najskuteczniejsze. W związku z tym u pacjentów mających objawy spodziewamy się nieco gorszych efektów niż u pacjentów w okresie przedobjawowym. w tej chwili w Polsce powszechnie wykonuje się diagnostykę w kierunku SMA w ramach badań przesiewowych noworodków. Diagnozujemy SMA bardzo wcześnie, w większości przypadków właśnie w przedobjawowej fazie choroby, więc w praktyce klinicznej spodziewam się lepszych wyników niż opisane w raportach z badania ENDEAR.
„Polski program lekowy jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne w tej chwili możliwości terapii SMA”
Czy można rzetelnie porównać badania FIREFISH i ENDEAR, biorąc pod uwagę opisane różnice pomiędzy nimi?
– To zależy od tego, w jaki sposób to porównanie się wykona. Należy podkreślić, iż niestety w badaniach FIREFISH i ENDEAR nie zastosowano takich samych parametrów, co pozwoliłoby łatwo taką analizę przeprowadzić. Oczywiście wszyscy bardzo tego żałujemy, bo chcielibyśmy wiedzieć, jaką skutecznością i jakim bezpieczeństwem charakteryzuje się każdy z badanych leków. Być może dzięki temu można by wskazać w grupie pacjentów z SMA takich, dla których skuteczniejsze byłoby leczenie rysdyplamem, i takich, którzy bardziej skorzystają z terapii nusinersenem. Mam jednak nadzieję, iż w przyszłości będziemy mieć do dyspozycji nowe badania i porównania nie tylko z badań klinicznych, ale także z codziennej praktyki. Coraz więcej państw wykonuje badania przesiewowe noworodków w kierunku SMA, w związku z czym będziemy mogli porównać efekty leczenia podjętego wcześniej niż w badaniach klinicznych i to zarówno u pacjentów mających objawy, jak i w okresie przedobjawowym. Przygotowujemy takie dane również na podstawie polskiego programu lekowego, który jest jednym z najlepiej działających na świecie, a w połączeniu z powszechnym badaniem przesiewowym noworodków oferuje polskim pacjentom optymalne w tej chwili możliwości terapii SMA.
Rozmawiała Agata Misiurewicz-Gabi.