OTC薬ラベルの理解度テスト－目的，方法，標的母集団，テスト環境

OTC薬ラベルの理解度テスト
－目的，方法，標的母集団，テスト環境－

Comprehension testing for OTC drug labels
－Goals, methods, target population, and testing environment－

Louis A. Morris^1），Karen Lechter^2），Michael Weintraub^2），Debra Bowen^2）

〔臨床評価（Clinical Evaluation ） 2000; 27（Suppl XIV）: 97-114より〕

Abstract
　　Drug products may be switched from prescription (Rx) to over-the-counter (OTC) status if labeling can be written that ensures that the label information is comprehensible to ordinary consumers, including persons with low literacy ability, under normal conditions of purchase and use. The Food and Drug Administration has been working with sponsors to develop methods to test consumer comprehension of proposed OTC product labels. The authors discuss several conceptual and operational elements of comprehension testing, focusing on the goals, methods, appropriate target audience, and testing environment. The authors also examine areas in need of further research and debate. As more complex products are considered for OTC status, it is even more important to ensure that OTC labels are comprehensible. As understanding and the validity of methods to evaluate consumer comprehension improve, so should the quality of labels offered to consumers.

　　The material protected by this copyright has been translated for the express purpose of this publication. The American Marketing Association cannot be held responsible for any misinterpretation caused by the translation. Reprinted with permission from Journal of Public Policy & Marketing, published by the American Marketing Association, Louis A. Morris, Karen Lechter, Michael Weintraub, Debra Bowen, Vol. 17 (1) Spring 1998. 86-96.

　多くの医薬品では，消費者が安全で効果的に使用できるように，ラベルの説明は間違いなく理解可能でなければならない．しかし，その製剤が非処方薬(over-the-counter drug：OTC薬)として消費者に直接販売できるものか，処方薬(Rx)として薬剤師により調剤されなければならないものかということに，理解しやすいラベルを開発することで影響を与えることができる．この２つの製剤の区分は，潜在的な有害性と消費者の安全で効果的に使用する能力の両方に基づいている．

　ある製剤が毒性あるいはその他の有害な作用を発現する可能性によって，診断・使用の決定の有資格者－大抵は医師であるが(食品医薬品化粧品法503条(B))－の監視のもとでなければ安全に使用できないならば，処方薬とされるのがふさわしい．一方，適切な診断・使用の決定は，製品のラベリングの適切性に基づく．OTC薬も処方薬もラベルに適切な使用のための指示が掲載されていない限りは，不正表示されたもの(misbranded)，すなわち違法行動とみなされる．しかしまた，一般の人に対する適切な指示と，資格を有する処方者に対する適切な指示とでは異なるであろう．

　適切な指示は，一般の人がOTC薬を各自の意図する目的に向けて安全に使用することを可能にする(21 CFR 201.5)．OTCのラベリングが明確で正しい(偽りなく誤解を招かない)ものであるためには，指示・警告・使用目的・副作用についての情報が記されていなければならず，また，「理解能力の低い人も含めた一般の消費者にとって理解しやすい表示にされており，購入し使用する，通常の条件にもとづいて評価されるような」方法で，表示されていなければならない．(21 CFR 330.10 (a) (4) (v))

　実情としては，ある化学化合物が新たに承認を受けると，その大部分は最初は処方薬としてのみ市販され，通常は処方薬のままである．しかし，販売元は処方薬からOTC薬への転換を申請することができる．ここ数年の間に，胸やけの薬，禁煙の補助薬，養毛剤，季節性鼻アレルギーを緩和する薬など，処方薬からOTC薬への転換が承認された製剤は多い(Juhl1997年)．食品医薬品局(Food and Drug Administration：FDA)が転換を承認するには，その製剤の危険性に対する利便性の輪郭(benefit-to-risk profile)が是認できるものであるかどうか，また，OTC薬の環境(処方に関する医療専門職の直接の監視がない，など)において，OTC薬の用量(dosage level)で使用した場合に安全で効果的に使用することが可能かつ予想できるかどうか，について決定をしなければならない．最近ではFDAは，新たに処方薬からOTC薬への転換を申請する申請者に対して，対象となる母集団をシミュレーションしたOTC環境での(1)ラベル理解度(label comprehension)(2)製剤の実際の使用状況(the product's“actual use”)についての根拠を提出するよう求めている．

　ラベル理解度の根拠は，ラベル理解度テスト(label comprehension tests)の形で示されている．近年，Friedman，Romeo，Hiltonは(1997年)，ラベル理解度研究の方法論の実例を示す研究を発表した．理解度テストは，広告文テスト(advertising-copy tests)，とくに「強制的体験による“コミュニケーション・テスト”」(forced-exposure“communication tests”)(Stewart1995)に似たものである場合が多い．試験に参加した被験者は申請中のOTC薬ラベルもしくはコントロールのラベルのいずれかを見せられ，それについての理解度を測定する質問を受ける．調査への参加者は製剤の使用状況(product use)あるいは服薬意図(behavioral intention)について追加の質問を受ける場合もある．実際の使用状況についての根拠は，被験者が製品を購入および/または使用する機会を与えられ，その行動の成り行きを追跡することができるような，シミュレーション研究(simulation study)の形で提示されている．

　この論文では，「一般人」(“ordinary individuals”)にとってのOTC薬のラベルの理解しやすさ(comprehensibility)を評価するテストに関連した諸問題を論じる．論文は４つの節に分かれている．第１節では理解度テストの目的について述べる．第２節では一般的な方法論に関するいくつかの問題を論じる．第３節では対象者について述べる．第４節ではテスト環境・背景について述べる．各々の節において概念的な，そして実用的問題を提起し，さらなる研究と討議が必要な領域について検討する．残念なことに，OTC薬ラベルの理解度テストはほとんど一般に公開されていない．この種のテストは通常，処方薬からOTC薬への転換に際し，新薬承認申請時の資料に加えてFDAに提出されるものである．これは企業秘密とされ，FDAから一般には公表されないのである．しかし，FDA諮問委員会の公聴会で，こうした試験のデザインについての詳細な考察や質疑がなされた2，3の例はあり，そのうちのいくつかをこの論文中で例示する．また，理解度テストの開発と検討全般に関する他の問題についても述べる．

　FDAは，最近スイッチOTCの申請のあった医薬品の多くについて，その審査に理解度テストの結果を用いている．しかし，理解度テストの方法論はまだ開発の初期段階にある．このような初期段階においてFDAと非処方薬の製薬企業は，様々なテスト法を試みてきた．こうしたテストの結果は分析者にとって，消費者がラベルの情報をどのように解釈するのかを知る手がかりとなる．しかし，こうしたテストに固有の主観的性質のため，その結果はとくに調査の方法(質問表の言葉遣いなど)その他のバイアスへの反応性によって左右されやすい．この論文では理解度テストについての種々の議論を明示し，それによって議論を喚起し，調査の方法論についての新たなアプローチを促進したい．

　マーケティングや公共政策の研究者は，宣伝が消費者を欺く事件を支持する論拠を明らかにしていく中で，広告文テストの理論と実践について論争してきた(Andrews and Maronick1995年；Maronick1991年；Morgan1990年)．理解度テストの目的とデザインの多くは，この調査の形式と似たものである．しかし後に述べるように，理解度テストには目的に重要な相違点がある．この論文ではそうした調査の形式におけるいくつかの類似点と相違点を際立たせ，それによって，既存の文献中の理解度テストに根拠を与え，派生する諸問題への批判的分析を促したい．

　ラベルの理解度テストの目的

　理解の適切性

　消費者はOTC薬のラベルを読み，おそらくは表象形成(mental representation construction)　を行いながら(Atman et al. 1994年；Bostrom et al. 1995年；Payne and Bettman1992年)，呈示されたものを「理解して」いるのだろうか？純粋に認知という視点から考えれば，いかなる表象形成も患者が理解したという証拠であるということになる．事実，広告文テストでは，広告，とくに直接主張するのではなく暗示するような広告，によって伝達される事柄を直接的に測定しようとするものである(Yao and Vecchi 1992)．

　この分析を理解度テストに適用するならば，理解とは消費者がラベルを読んだ後に知る内容だと考えることになるだろう．しかし，製品のラベリングについて法的な問題は，広告による欺瞞についての問題を鑑みて，情報が理解可能なものかどうか，ということである．このため，ラベルの理解についてのより適切な質問とは，消費者が製品を安全で効果的に使用するに十分なほど，ラベルの情報を正確かつ十分に理解できるかどうかというものである．したがって，OTC薬のラベルの適切な理解とは，言語的(たとえば，消費者は説明文を正しく解読しているか？など)，あるいは認知的(たとえば，提示された説明により新たな表象形成がなされたか？など)なものと対比して，教育的な帰結(たとえば，消費者は提示された情報のうち，重要なものを理解しているか？など)である，と考える(Schellings and Van Hout-Wolters1995年)．

　この教育的な側面によって，説明文のデザインと処理についての理解の責任が課されることになる．それは，コミュニケーションの中から抽出された意味が，消費者のコミュニケーションの中に明示的に，あるいは暗示的にでも，含まれているかどうか(言語的な帰結)に焦点を置く，JacobyとHoyer(1987年，1989年)の理解(あるいは誤った理解)の概念とは異なるものである．この教育的な側面は，理解度テストによって重要なメッセージが把握され，測定されることをも求めていることになる．

　ラベルの理解の限界

　大衆薬工業協会(Nonprescription Drug Manu-facturers Association：NDMA)による調査(1995年)は，消費者がOTC薬のラベルを読んでいると回答をしたパーセンテージの高いことを示している．例をあげれば，回答者のうち90％以上が薬の使用を行う前にOTC薬のラベルを読んでいると回答している調査もあり(Harris1991年；Heller1992年)，また，96％が子供の服薬に際してラベルを読んでいると回答し，OTC薬使用の際に半数以上がいつもラベルを読むと回答し，96％以上がたいていはラベルを読むと回答しているものもある(Princeton Survey Research Associa-tions1992年)．

　大多数の人々が服用しているOTC薬のラベルの説明を読んでいると回答をしている．しかし，たとえよい反応の思い出し(respondent recall)の問題を無視したとしても，これらの調査が何を人々がラベルを読むことと考えるかということの明確な指標を与えるものではないことがわかる．OTC薬のラベルを読んだと判断するのに必要で十分な，消費者の読むという行動の要素は何であろうか？たとえば，ラベルを読むということは，消費者が視覚的に(1)包装の外面表示(package panels)を吟味するということ(指示と警告は，慣習として裏面か側面のパネルに記されており，表面には記されていない)，(2)印刷された広告文をざっと読むときと同じように，パネルの各部分に目をとおすということ，(3)文字情報の正確な表象形成を記号化するために十分な長さの時間で十分な数の単語に注意を集中すること，という意味であろうか(Rayner and Well1996年)？「90％以上の消費者がラベルを読んだと答えている」ということと，「ラベルの内容の90％以上が読まれている」ということでは，大きな違いがある．このため，消費者の大多数がOTC薬のラベルに何らかの注意を払ったと回答したとしても，通常の読み取り条件下でどの程度読み取れているかはわからないのである．

　OTC薬のラベルを読んだ後に，消費者が記憶にとどめている情報量はわずかなものかもしれない(Mazis and Morris，印刷中)．しかし，消費者が文書中の最も重要な情報を憶えており，その意味をとらえているのならば，ラベルは適切に理解されうるものだと考えることができる．このため，ラベルの理解しやすさについての規制当局の関心は，製品の安全で効果的な使用に関係する最も重要な情報が想起され，正しく適用されるかどうかを審査することに向けられるのである．

　コミュニケーションの目標

　妥当な評価の手段をデザインする前に，測定すべき変数(訳注：評価項目)を決定しなければならない．FDAが提唱する一般的な方法は，理解度の評価は前もって定義された「コミュニケーションの目標」(communication objectives)についての測定に基づくべきであるとしている．これは，消費者が製剤を安全で正しく使用するために知らなければならない最も重要な情報の要素，あるいは行わなければならない行動のことである．製薬企業でOTC薬へのスイッチを申請する，あるいはFDAでそれらの申請を審査する医療やコミュニケーションの専門家は，これらの目標をケース・バイ・ケースで決定する．

　特別なコミュニケーションの目標(たとえば，消費者は最も起こりやすい副作用が掻痒感と皮膚炎の刺激感であることを知るべきである，など)(Lechter1995c)は，一般的な目標(たとえば，消費者はその製剤を使う際のリスクについて知るべきである，など)との対比により，より良い行動へと導くことになると思われる(Ajzen1991)．これらは，より客観的な質問構成を可能にすることで，質問項目の開発の補助ともなる．たとえば，適切な使用についての知識の概念形成を測定するのに妥当な質問項目のセットを開発することは，その概念形成を測定する一連の質問項目の選択と検証を必要とする(American psychological Association1985年)．消費者がその製剤を満腹時に服用すべきか空腹時に服用すべきかを理解しているかどうかをテストするためにデザインされたある１つの質問は，表面的な妥当性の評価(face validity)で確信をもって採点することができる．

　テストの結果の解釈

　いかなる理解度テストも，その結果がどのように解釈され適用されるかについての考察なしには使用することはできない．消費者のテスト得点が良かった場合，それをラベルが容易に理解できるものであると考えるべきか，あるいは，そのテストでは判別妥当性が不十分であると考えるべきか？(American Psychological Association1985年)現在では，理解度テストの妥当性の基準も，テストの得点を解釈する確立した基準も存在しない．

　理解度テストを実施するスポンサーは，テストの結果を解釈するために２つの方法を採用している．１つはテストの前に最小の成功率を，合格率によって(たとえば80％の被験者がすべての質問に正しく回答するだろう，など)，あるいは対照群との比較によって設定する方法．もう１つは合格基準を事前に設けず，テストの結果を記述的な測定手段として使う方法である．

　これらの方法のいずれも，長所と短所がある．事前に合格率を設定する場合，合否の決定は容易である．しかし，会社がラベルの理解しやすさを証明したいという明らかな動機を持っている場合，仮定・バイアス・質問形式は，会社にとって有利なように重みづけをされ，このためFDAの審査官は提出されたデータがラベルの理解についての妥当な測定結果となっているかどうかを確認するために綿密な監査をしなければならないことになる．

　テストのデータを記述的な測定手段として使うことは，スポンサーがテスト用文書とコントロール用文書の差異を実証しようとする努力(incentives)を減らすかもしれない．さらに記述的な測定手段は分析を行う人にラベルのデザインの長所と短所についての診断学的な情報を提供するかもしれず，それはラベルの改善を促進することにもなる．反復的な(iterative)テスト方法をとっている会社もいくつかある(Lechter1995b)．これらの会社は理解度テストに基づいてラベルのデザインを変更し，「改良された」ラベルについてさらにテストを重ねる．この方法はラベルが理解しやすいものであるという肯定的な結論を導くものではないが，OTC薬のラベルの理解のしやすさを改善する手助けとなるだろう．

　事前に合格率を設定しない場合，ラベルが十分に理解しやすいものであるかどうかは，主観的な評価に依存することになる．Jacoby，Hoyer，Scheluga(1980年)は，広告によるコミュニケーションの正確さを判断するために「誤った理解の指標」(miscomprehension index)を使用することができると述べている．不正確なコミュニケーションの許容範囲は，誤った方向のコミュニケーションの成り行きによって異なるであろう．OTC薬のような製品については，不正解の回答のパーセンテージはかなり低いものでないと(5％～10％)適切な範囲とはみなされない(Jacoby and Small1975年)．時折，FDAとスポンサーとで試験実施前に理解度テストの到達目標について，相互の合意を形成しておくことがある．コミュニケーションの目標の性質，質問のタイプ(たとえば，記憶(recall)，認知(recognition)，提示されたシナリオへの回答を求めるテスト，など)，正しく回答されなければならない質問の数(あるいは特定の帰結)，製品の安全性または有効性に関する事項などに基づいて，特定の到達目標が設定される．80～95％の合格率の理解度テストが使用されてきている．

　調査の必要性

　申請OTC薬のラベルが十分に理解しやすいものであるかを決定する補助となる情報を提供する「理解度テスト」の到達目標は十分に理解できるものであろうか，あるいは最も理解しやすいラベルをデザインすることを補助するためのものであろうか？　調査のデザインは，テストの計画時にこれらの到達目標のどちらが想定されているかによってかなり異なるものになってくる．しかし，これらの到達目標の双方とも必要であるように思われる．OTC薬のラベルが規制当局の標準に適うかどうかを決定するためには，事前に決められた経験的な根拠を持っておくことが重要である．消費者がOTC薬を購入するときに，可能な限り最もわかりやすいラベルを受け取るということも重要である．今後の研究はこれらのテスト法をいかにして結合させるかに焦点が置かれることになるだろう．到達目標の双方を主張する反復様式が応用可能であろうか？

　テストの結果を解釈するもうひとつの方法は，比較の基準を設けることかもしれない．理解度テストの数も増えているので，それらを集めて基準データを公表することもできるかもしれない．こうした基準データは個々のテスト結果の解釈を助けるのに使われるだろうか？テストの結果を比較できるように標準化することができるだろうか？たとえば，すべての理解度テストが，消費者のラベルの理解についての同一で非特異的な一連の質問項目を備えることはできるだろう．これらのデータは個々のラベルの理解度を評価するのに使用できる．この方法が望ましいものか，実現可能かなどについては今後の研究の成果を待たなければならない．

　コミュニケーションの目標を形式化するのを助ける研究も必要である．特定の理解の目標は，ラベルのデザインとテストに明確な方向性を与える．しかし，表面的な妥当性のみに依拠するのでは，質問がそれによって測定されると設定しているものを本当に測定していることにならない．他の選択肢，すなわち特別に作られた質問項目を立証する試験を求めることは，不当で過剰であるように思われる．過度な時間と仕事量を必要とせずに妥当性の根拠をもたらす研究方法を開発すべきである．おそらくは，多様な評価スケール，またはある種の分析的な方法が測定の妥当性の信頼性を増加させるだろう．注意喚起測定(Intention-to-heed measures)は概して，他の背景事情で使用されてきた購入動機付け測定(behavioral intention measures)ほど徹底して開発されてはいない(Ajzen1991年；Ajzen and Madden1986年)．たとえば，男性用の育毛剤(hair growth product)(女性については禁忌である)のラベル理解度テストでは，回答者は次のように尋ねられる．「今あなたが読んだ説明書によって，あなたはこの製品を自分で使うために買いたいという気持ちになりますか？」(Lecther1997b)このような単一の購入動機付け測定の妥当性について尋ねることができる．ラベルに記された警告が必ず行動の変化をもたらすという根拠が現時点では不足しているので(Stewart and Martin1994年)，こうした種類の測定法を開発する研究が重ねられることが求められる．

　理解度テストの方法

　いろいろな意味で，理解度テストの方法論は広告文のテストと類似している．理解度テストのデザインにはトレード・オフ関係のある項目が含まれている場合が多く，予算をよく考慮した上での方法の選択が求められる．信頼できる理解度テストをデザインするのに必要な方法論についてのあらゆる側面を論評することは，この論文が扱う範囲を超えている．広告文テストの方法論についての論評のいくつかは，理解度テストの厳格さの評価を補助する重要な洞察を提供している(Andrew and Maronick1995年，Halley and Baldinger1991年など)．しかし，広告文テストの論文をまとめあげる時，理解度テストについてとくに注意しなければならない２つの側面を見出す．すなわち，(1)質問項目の言葉遣い(2)対照群の特性，である．

　質問項目の言葉遣い

　広告文テストの方法論の場合と同様，理解度を測定するための質問を自由回答方式とするか回答制限方式(open-or closed-ended)とするか，いずれにしてもかなりのメリット・デメリットがある．自由回答方式の質問は誘発効果を持つことは少ないが，消費者の知識を十分に調査することにはならないだろう．回答制限方式の質問は，消費者の知識を正確で鋭敏に測定するだろうが，質問(あるいは以前の質問)の誘発効果からラベルの影響を引き出すことには，なお問題が残る．

　広告の欺瞞についての研究によると，裁判所は，バイアスを引き起こすことのない自由回答方式の質問への明らかな好みを示す．回答制限方式の質問が使われる場合には，問題絞込み型の(funnel sequence)自由回答方式の質問の後にのみ置かれる(Jacoby and Szybillo1995年；Maronick1991年：Stewart1995年)．自由回答方式・回答制限方式の質問は，消費者が情報を理解し引き出す様々な方法を生み出す．自由回答方式の質問が好まれる傾向は，こうした質問が法的手続きの中で異議を唱えられにくいことによるものである(Sudman1995年)．

　理解度テストにおいては，どちらのタイプの質問でも適切かもしれないし，自由回答方式で絞り込んでいって，回答制限方式で終える質問配列は，これらの質問を構成する方法として好ましいように思われる．前に述べたように，消費者に積極的にラベルをよく読む傾向を持たせるようなラベル使用パターンのコミュニケーション目標を分析するには，消費者のラベル情報への理解を形成するような，回答制限方式の質問によって測定されるのが適切である．

　広告文テストと理解度テストの主たる相違は，提示された質問の基底にある目的である．広告文テストは，広告によって消費者が明示的もしくは暗示的に伝達される情報は何かということを測定しようとするものであり，理解度テストは，事前に決められた伝達事項の要素が伝わったかどうかを試験しようとするものである．このため，より詳細に言えば，これらの要素の伝達を感度よく測定する回答を同定し引き出すための検査をする質問が必要となるかもしれない．

　加えて，理解度テストの基底にある教育的な視点からすれば，消費者の理解と情報の適用は，理解度テストにとっては意味のあるゲーム(fair game)であるかもしれない．最近のいくつかの研究では，消費者のラベル情報の適用をテストするシナリオを使用した．たとえばある理解度テストでは，参加者が製品を服用して，何らかの結果(副作用としてラベルに書かれている)に気付いたときにどうするかを尋ねる．また別の研究では，警告・指示・用量計算などについての消費者の理解を評価するシナリオを使って質問することもある．また他のものでは，回答者にその製品を個人的に使用できるかどうか尋ねることもある．回答は禁忌を示す別の質問項目についても回答者ごとに集められ，医学的情報の観点から分析される．

　アンケートのバイアス

　広告文テストと同様，ラベルの影響を質問の順序や表現方法によるバイアスの影響から区別することが決定的に重要である．誘導的な質問，賛成発言効果(yes-saying effects)，その他のバイアスがある場合，広告文テストも理解度テストも無効になる(Morgan1990年)．たとえば，Lechter(1997a)は，extra-strength Excerdinについての理解度テストの妥当性に疑問を投げかけた．というのも，質問の正答が判を押したように単純で肯定的なものばかりだからである．しかし，質問表からバイアスの影響をすべて取り除くことは実現性がない．むしろ，ラベルの申請を承認するのに必要な「適切かつ良くコントロールされた試験」(“adequate and well-controlled investigations”)というFDAの証明基準が，証明力のある研究についての法的な基準との論理的整合性を示している(21 CFR 314. 126；Morgan1990年)．

　ある種のバイアスの影響を慎重なデザインによって最小化しうる一方で，質問の順序や言葉遣いの影響を理解し見つけ出すことは，テストの結果を解釈するのに役立つであろう．たとえば，ある理解度テストでは，警告についての消費者の理解は，特定の説明文についての認識を尋ねる４つに分かれた反復的な質問によって証明されるものとなっていた．当然のことながら，消費者が質問に答える度に，警告を「知っている」と答えるパーセンテージは増えていた．全体的に測定すると，テストを受けたかなりの割合の対象者が，特定の警告を知っていたことが示された．しかしながら，質問が次第に特定されていくことが正答率を高めたのかもしれない．このため，証明を目的とした質問の影響とラベル自体による影響を区別することができないので，会社は消費者が警告を理解したことを証明するデータを得ることができなかった．

　Sudmanらの研究によれば(Schwarz and Sudman1996年；Sudman, Brandburn, and Schwarz1996年)，われわれは質問項目にバイアスが存在するかどうかをはっきりさせることができない．むしろ，バイアスは消費者の質問への回答を構成する会話の言語構造の中に，複合的に付随して含まれているものである．バイアスの影響は様々な要素によって引き起こされるものであり，それを分解することによって多種多様で主観的なプロセスが見出されるものである．

　コントロール群

　実験的な研究においてコントロール群が使われるのは，反応に影響を及ぼすようなアーティファクトを分離させ，あるいは制御するためであることが多い．コントロール群は，被験者をランダム割り付けすることにより，観察されたあらゆる差がテスト・ラベルのような実験的要素によるものであることを確認する手掛りとなる．コントロール群は，観察された効果の解釈を助ける比較対照としての役割を果たす．

　広告文テストにおいて，コントロール群は仮説として設定された伝達内容の要素が特定の認識に導かれるかどうか，証明するために決定的に重要な役割を持つ場合が多い(Stewart1995年)．人を惑わす可能性のある要素を分離し，除外した広告をコントロール群として設定しておくことによって，テスト群の広告文には入っているが対照群では入っていない特定のメッセージが人を欺くものであるという，有力な証拠が提供されることになる．

　これに対して理解度テストでは，コントロール群を使うことの問題はより多い．多くの場合，会社がコントロール群を使うのはコミュニケーションの特定の要素を排除しようとするためであるよりは，むしろ，伝達される内容についての全体的な比較をするための手段とするためである．コントロール群の選択は，あるラベルの理解しやすさの理解には不可欠である．

　非同等性比較

　比較を目的として，コントロール群に既存OTC薬のラベルを使う会社もある．たとえば，OTC薬の申請をするNicoretteのラベリングについての研究では，Tavist-D(抗ヒスタミン剤のOTC薬)のラベルを用いた．この試験，また他の同様の試験においても，申請されたラベルは既にあるものとほぼ同様の理解度が得られることがわかった．しかし，非同等のコントロール群の使用は，困難な解釈上の問題を生じた．

　なぜなら，２つのラベルには有意な差がないからといって，２つのラベルが同等であるということにはならないからである．差がみられないということには，測定法の感度が低い，サンプル数が少ない，その他の方法論的な限界などによる可能性もある．ラベルが違えば，消費者の読み取り意欲も異なる．たとえば，誰にでも関係のある医薬品(鎮痛剤など)のラベルを読むときには，より重篤な症状のための医薬品(喘息薬など)の場合ほど熱心に読むことはないだろう．

　理解度に関連した問題に加えて，非同等のコントロール群を使うことについては公共政策上の問題がある．仮に２つのラベル(テスト・ラベルとコントロール・ラベル)が，許容し得る方法論によるテストで同等とされた場合，テスト・ラベルは十分に理解しやすいものであることを意味するであろうか？そのようなデータは，OTC薬のラベルが既存のラベルよりも有意に劣ってはいないということのみを証明するものである．このようなテスト方法により同等性を主張することができる(たとえば，会社は，そのラベルが既存のラベルと同等に理解しやすいことの証明のみに責任を持つべきである)．しかし，OTC薬のラベルをいかにしてわかりやすいものにするかということについての研究が進むに従って，会社はよりわかりやすいラベルを作ろうという動機を高めるだろう．理解度の同等性を証明することによって，OTC薬のラベルの理解しやすさのレベル・アップについては沈滞がもたらされるかもしれない．ラベルの理解度についての研究が進むに従って，より理解しやすいラベルを開発することが望まれる．

　同等のコントロール

　製品のラベルをテストする際に，あまり大きな違いはない２つの方法を使う会社もある(たとえば，情報の順序を変えて比べる，箇条書きにしたものと文章を続けたものとを比べる，など)．もちろんこうしたテストからは有意な差は認められない．このようなラベルのデザインの小さな違いは理解度の測定法に大きな影響を及ぼすことはないだろう．加えて，テスト群とコントロール群に重要な差が認められたとしても，自動的にその差が意味のあるものであると結論することはできない．方法論的について厳格に検討し，統計上のアーティファクトを除外し(たとえば，多重比較によるα誤差の増加)，観察された差の臨床的重要性を評価することが必要である．あるOTC薬が多くの消費者に使用されたならば，理解度についての改善の割合はたとえ小さくとも，それが大きく絶対的な改善を意味する場合もありうるのである．

　表現方法の異なるラベルをコントロール群として使用する会社もある．たとえば，文章を綴るだけの，無味乾燥な，区切りを際立たせる項目立てや太字による強調やスペースもない，といったラベルを使い，グラフィックで目に楽しく，箇条書きで書かれており，項目立てが明確で，スペースもゆったりとしたラベルと比較することもある．Lorch and Lorchによる調査(1995年，1996年)と，Lorch，Lorch and Inmanによる調査(1993年)は，重要な情報をグラフィックな方法で目印をつけることにより，目印をつけられた情報がより十分な形で伝達されるということを示した．

　テスト・ラベルをそのようなラベルのバリエーションと対比することで有意な差は見出しやすくなるが，それらの差異をどう解釈するかは明確ではない．テスト群とコントロール群の間に観察された差は，ラベルのデザインが改善されたためではなく，コントロール群のデザインでは重要な情報が不明瞭になっているためからかもしれない．会社は差異に対する対策として，水面を上げるよりも橋を低くするような技術を使うかもしれない．ある理解度測定方法により，テスト群のラベルとコントロール群とを比較して差がみられたり，より良い結果が出たということが，テスト群のラベルが大きな割合の消費者にとって理解しやすいことを意味するのではないのである．

　それゆえ，比較のためにコントロール群を使うことは，ラベルのバリエーションが理解度におよぼす影響を知る手段として，最適なものであると考えられている．テスト群とコントロール群の間に統計的差異がみられたということだけでは，ラベルが理解しやすいものであると結論するには不十分なのである．

　コントロール群における質問

　理解度テストにおけるコントロール群の問題ある性質のために，１群のみのデザインで申請をされるものもある．これらの試験は申請するラベルについて，全体の理解しやすさを評価するよりはむしろ，弱点を特定化し発見することに焦点が置かれている．こうしたタイプの診断的調査は，特定のメッセージに対する消費者の理解を調べる，より徹底した質問を用いる．このタイプの調査は，特定の質問についての回答がなされる場合のバイアスを制御するものであり，方法論的な問題として重要なものである．

　こうした例においては，黙従反応バイアスのレベルをチェックし，その他の疑陽性反応を管理するためにコントロール・クエスチョンを使用することが決定的に重要である(Jacoby and Szybillo1995年)．たとえば，コレステロール低下剤をOTC薬として申請する試験をある会社が行った際に，消費者が治療を開始する前に医師の診察を受けなければならないという理由をどのくらい理解しているかを測定しようとした．７つの選択肢が与えられ，そのうち５つは正しく２つは誤ったものであった．およそ2/3から3/4の回答者が正しい答えを記入し，1/6から1/3が誤った回答を記入した(Lecher1995a)．ここから，回答者が指示に従うべき理由をラベルが示していると信頼しているならば，回答者がこの質問に対して正しい答えを選ぶ傾向は2～3倍であるということになる．

　解析の問題

　理解度テストの結果を解釈するためには，概して複雑な統計学は必要ではない．データの解析は，仮説の検証を構成するものとは対照的に，記述的な性質を持つ場合が多い．有意差検定は知見の解釈に必要不可欠であるとはみなされないかもしれない．反対に，結果を従来とは異なる第一種の過誤(alpha levels)(通常用いられている0.05以下の水準という基準よりも大きな基準)を使うことで有意であると記述すること，もしくは多重検定(multiplicity of analyses)は，あまりに厳密性を欠き，解釈には役立たない．

　既存のラベルとの同等性を論証するための研究は，特別な精査を行うべきものとされてきた．他のラベルとの同等性を示そうとするデータは，十分な検出力を必要とするだけではなく，組み入れ・除外基準を決定する際の相当な慎重さ，測定手段の感度，その他の方法論的要素への注意を必要とするのである(Jonesら1996年)．

　調査の必要性

　自由回答方式の質問が消費者の認知を適切に証明しないこと，一方で回答制限方式の質問が肯定的な回答を促すなどのバイアスをもたらすことを，テストの評価者が懸念することが多い．両方のタイプの質問を，最初に自由回答，次に回答制限方式という順序で用いることは，行動の方向づけを促す(Jacoby and Hoyer1987年；Morris, Mazis, and Brinberg1989年)．しかし，前の質問の影響が後の質問への回答に影響するということは，難しいジレンマを残す．たとえば，自由回答方式から回答制限方式へと質問を狭めながら繰り返し尋ねる場合，多くの回答者は結果的に正しく回答するだろう．理解度を測定するときに，どのようなレベルでヒントを与えるのが最適といえるだろうか？どのようなタイプの回答が理解を示すことになるだろうか？(完全に思い出す，部分的に思い出す，部分的にヒントを与えられる〔たとえば選択肢が多数ある場合〕，完全にヒントを与えられる〔たとえば真か偽か〕回答)標本調査研究にて認知反応を調べることは，これらの質問に一般的な答えを提供する(Willis1994年を参照)．しかし，理解度測定に目標を定めてさらに研究を行うことも求められる．

　おそらく，さらに印象的な必要性があるのは，方法論学者にコントロール群の役割についての情報をもたらす研究である．単一で固有の比較刺激の追求は，実りのない努力になるかもしれない．OTCラベルが理解可能であることを示す，必要で十分な条件を探すことの方が意味のあるアプローチであろう．このような条件を理解しない限りコントロール群を用いた研究は無意味であると解釈されるだろう．おそらく，コントロール群の役割は，使われる理解度テストのタイプによるだろう．合格か不合格かを決めるテストは，テスト・ラベルとして同じ質問項目によって測定するときに，確実に理解可能だと考えられるようなものとして開発することが必要である．診断的な宣伝文テストは，コントロール群の質問から得るところが最も大きいだろう．この場合，コントロール群の質問を思慮深く作成することが，ある種の回答のアーチファクトによる影響を測定するのに役立つかもしれない．しかし，より特異的なメッセージを開発するためには，診断テストにおいて比較ラベルをカスタム化する必要があるかもしれない．このようなラベルは，コミュニケーションの要素をより理解しやすい方法で伝えると仮定される代替的なメッセージもしくはデザインをテストすることになるだろう．しかし，コントロール群のラベルを，合格・不合格形式あるいは診断的なものかのいずれかでどのようにデザインするかについては，慎重な研究と開発を待たなければならない．すでに論述したように，反復的なテストはこの点では役立つかもしれない．しかし，そうした研究プログラムの対費用効果についても評価が必要とされるであろう．

　標的母集団

　理解度テストは概して，製品のカテゴリーの潜在的なユーザーである消費者のサンプルを含んでいる．多くのOTC薬は，成人であればみな潜在的なユーザーとなる．また，母集団がある種の人口統計学的カテゴリー(たとえば，男性と女性とで診断基準やパッケージが異なるRogaineなどのように性特異性のあるもの)，あるいはその薬剤によって治療される医学的状態によって，限定されるOTC薬もある．研究の目的が，その製品の購入を決めた消費者がラベルの指示を的確に理解することを保証するためであるならば，サンプルはその製品の実際のユーザーあるいは潜在的ユーザーで構成されるべきである．しかし目的が，消費者が自分がその治療を受けることが適切かどうか，自ら選択できるかどうかを判断することならば，実用試験では，潜在的ユーザーと非ユーザーを含めて実施されるだろう．たとえば，男性が，通常のRogaineと，同じ製剤の力価の強い(extra strength)申請中のものとの，いずれか適切な方を選ぶことができるかどうかをテストした際には，会社はその製品の現ユーザーと，すべての潜在的ユーザーを代表する非ユーザーをサンプルに選んだ(1997b)．

　ラベルの理解度についての当局による基準は，「理解力の弱い人々をも含んだ，普通の消費者」(“ordinary consumers, including individuals with low comprehension ability”)(21 CFR 330.10(4)(v))を代表するサンプルに基づかねばならない，と明記してある．広告文テストのために案出されたサンプリングの手順は，ショッピング／モールでの便宜的サンプリングであり，通常，最低４つの地理的に分散した地域で行われる(Mazis1996年)．このサンプリングの方法はある地理的な代表性を保証するが，理解力の低い人々を十分な数含むことを保証するものではない．より良いサンプルは，地理的に分散させることと，言語運用能力の低い消費者を含む適切なサンプリングを保証する方法とを組み合わせることである．さらに，公共政策的な視点からすれば，理解度テストで言語運用能力の低いサンプルを含むことによって，改良されたラベルのデザインは人口のより大きな割合の人々にとって有益なものとなる可能性を増す(Adkins and Ozanne1997年)．

　言語運用能力(Literacy)の定義

　1991年の国家言語運用能力法(National Literacy Act)(OL102-73)にて，言語運用能力を，「英語を読み，書き，話す個人の能力で，その個人の目的を達成し知識と可能性を育成するために，仕事と社会生活で役割を果たすのに必要な熟達度で計算し，問題を解決する能力」と定義している．言語運用能力の定義は，国家成人言語運用能力調査(National Adult Literacy Survey；NALS)の準備として教育試験局(Educational Testing Service)によって召集された専門家パネルによって，さらに深化された(Kirsch et al. 1993年)．ここでは，言語運用能力は，「個人の目的を達成し，知識と可能性を育成し，社会で役割を果たすために，印刷され書かれた情報を使うこと」と定義された(p.2)．

　NALSによる言語運用能力の概念化と定義は単にメッセージを理解することだけではなく，情報を使うことにも焦点を置いている．NALSの専門委員会は，言語運用能力とは様々な一連の仕事を完成させるのに必要な順序立った一連の技術であるという見解をも支持した．委員会は，言語運用能力の領域は大きく３つに分けることを提案した．すなわち，散文(prose)(書かれた文章を理解する知識と技術)，記録(document)(用紙，図，表，グラフ，その他の情報を探索し，使う知識と能力)，計量(quantitative)(計算を運用する知識と技術)についての言語運用能力である．

　言語運用能力の評価

　NALSを施行するために，委員会は各範囲を5段階で操作的に定義するグレーディング・システムを開発した．各レベルに応じた課題を達成するためには，レベルが高くなるにつれて一層高度な情報操作技能を必要とする．例として，散文運用能力では，

　レベル１では，回答者が比較的短い文章を読み，質問もしくは指示に合致，若しくは類義語にあたる情報を１つ答えるという，単純一致試験を達成することを必要とする．
　レベル２では，回答者は文章中で情報の在り処を指摘せねばならないが，文章中には混乱させるような記載が幾つか含まれている．
　レベル３では，文章中の幾つかの段落から，読者に簡単な推論もしくは情報の統合を求める．
　レベル４では，より複雑で長い文を読ませ，より複雑な情報の統合もしくは合成が必要とされる．

そして
　レベル５では難解な文章から情報を探索し，高度の推論を行うことが必要とされる．

　NALSにより，米国での言語運用能力の実態と程度に関する信頼できる推論が可能である．NALSは1992年に全国から16歳以上の13,600名を抽出して実施された．本調査では，個人面接，黒人やヒスパニック系世帯に重心を置いた世帯調査，80の連邦もしくは州立刑務所に収監中の1,147名の囚人への独自調査が行われた．

　NALSの結果では，散文運用能力，記録運用能力，計量言語活用能力の3者で同様の分布を示した．全体として，標本の約5分の1(21％から23％)がレベル１に，約4分の1(25％から28％)がレベル2，約3分の1(31％から32％)がレベル3，そして漸減してレベル4(15％から17％)，レベル5(3％から4％)に格付けされた．この結果をアメリカの人口に当てはめると，アメリカ人の凡そ40％(1億9千1百万の成人のうち，9千万人)が非常に限定された言語運用能力(レベル1，レベル2)であることが示唆される．

　しかしながら，NALSのデータが示すところによれば，言語運用能力の低さというものは，様々な身体的もしくは認知上の障害によるものであることが分かる．レベル1に属する人のうちの25％は，それまでに英語の会話も読解も勉強したことが無いと考えられる移民であり，約3分の1は65歳以上で，4分の1には身体的，精神的，若しくは健康上の問題があって，全範囲の活動に参加できずにいる．調査の対象となった人のうち，3分の2(62％)は高校教育を終了していない．レベル1の人にとっては，題材を単純化することはたいして役にたたない．というのも，言語運用能力の障害の度合いが強すぎて，OTCラベルを読みやすくしても，理解することができないからである．OTCラベルを理解力の乏しい人々向けに理解しやすくすることは，読解材料の単純化が直接に理解力を高めることができる，レベル2以上の人には役にたつ．

　言語運用能力評価を使用する

　“理解力に乏しい人々を含む，一般的な消費者”という標本の要件は，言語運用能力の低い人々への適合性の高い普遍集合として，アメリカの人口を正しく代表するようにするものである．確率ベースの国民標本でも，標本が電話を持つ所帯，施設に収容されていない人々，または特に言語運用能力の低い人々を避けた標本に拠っている場合にも，同様の難しさがある．

　ほとんどの理解力テストは，大抵は地理的に離散しているショッピング・モールなどでの街頭聴き取り調査に基づいている．しかしながら，研究の参加者に言語運用能力が低い人々が含まれているような標本抽出方法をFDAが要求し，製薬会社がそれに応じた．そうした方法には社会経済的に低い階級の住む場所にあるショッピング・モールなどを選ぶこと，読書力の低い人々の住む地域で調査すること(すなわち，成年学級)，最終学歴で層別化や後ろ向き研究を行うこと，教育水準を基準にして分割抽出すること，言語運用能力テストを基準にしてスクリーニングや分割抽出することなどがある．こうしたテストにはRapid Estimate of Adult in Medicine(医学的成人言語運用能力迅速評価)という，被験者に66個の漸次複雑性を増す医学用語を発音してもらうテスト(Davisら，1991年，1993年)，Wide Range Achievement Test(広範達成度テスト)という，幾つかの版がある一般的な語彙の発音テスト(JastakおよびWilkinson，1984年)がある．この他に迅速さは劣るものの，Test of Health Literacy in Adults((成人健康言語運用能力テスト)という，50項目の読解テストと17項目の計算能力テストからなるテスト(Parkerら，1995年)がある．

　組み入れ基準と除外基準

　法的手続き上の研究は適切な全母集団に基づかねばならないということが，法格言になってきた((Maronik，1991年)．しかしながら，何が適切な全母集団であるのかは議論の的である．例えば，JacobyとSzybilloはKraft Singlesの広告をテストするにあたっての適切な全母集団が，アメリカ製チーズ，個別包装されたアメリカ製チーズ，その他チーズ製品の購入者であるのかどうかを議論した((1995年)．重要な疑問は，果たしてテストの母集団が潜在的なユーザーの母集団に特異的に合致するだろうかということである．

　多くのラベル理解度テストは，その製品の対象とする人々に対して実施される．例えば，禁煙研究では，被験者には現在喫煙者でありかつ，禁煙を希望する人に対してのみ実施される(Lechter，1995年b)．その他の研究では，最小限の組み入れ・除外基準を設けて，なるべく多くの人を対象にしようとする．理解力テストのほとんどでは，組み入れ基準には生理学的(すなわち，文書中の語を視覚的に弁別する能力)および文化的(すなわち英語を理解する能力)，その両方で定義される英文読解能力を含んでいる．多くの研究では市場調査会社員および医療従事者を除外している．

　しかしながら，理解力テストでは，すべての被験者がその製品の潜在的ユーザーである必要はない．その製品の禁忌である人々は調査対象から除外されないのが普通である．というのも，その人たちが自分たちはその医薬品を使用してはいけないのだということを正しく認識できるかどうかをテストすることは重要だからである．テストの中には各種の条件に合致する被験者の割合が確立されたり，大きな努力を払ってそうした被験者を募集するものもある．ラベル理解度調査では現にその製品を使用中の人だけではなく，今後その製品を使用するであろう人を潜在的な全母集団として考えなければならない．

　研究の必要性

　学力は言語運用能力の代理尺度としてもっとも頻繁に用いられるものであるが，研究結果によれば，教育は読解能力の有効な指標であるという推論を支持しない(Sawer，1991年)．語彙発音テストの初期の経験によれば，このテストは施行が容易であり，また分析の中にはこのテストは言語運用能力を評価するのに役立つとしたものもある(Parkerら，1995年)．しかしながら，妥当性研究は少ししかない．正しい発音というものは読解能力の一つの側面ではあるが，それがOTCラベル読解能力全体の評価にどれほど役立つかは不明である．また，テストに使用される語彙がどの程度，その分野に特異的であれば良いのかも不明である．OTCラベル読解力を評価するには，OTCラベルに頻用される用語であれば良いのだろうか，一般的な保健用語であれば良いのだろうか，単純な説明的な文章であれば良いのだろうか，あるいは他に適当な語彙の例があるのだろうか？OTCラベル読解力テストの妥当性，信頼性，感度を評価するための尺度の開発は今後の研究に待つところである．語彙予備テストは研究の応募者の中に理解力の低い人を含んでいるかどうかを評価するための代案である．しかし，他の評価方法と比較しての利点，欠点は証明されていない．

　テスト実施環境

　一般に製品のラベルを読むことによって得られる知識は，ラベルを読むのに要した注意の程度に依存していると推定されている．慣習的な読み取り条件下での消費者のラベル理解度調査には，テスト実施環境の外的妥当性を考慮する必要がある(CookおよびShadish，1994年)．われわれは慣習的な読み取り条件に類似した環境を作り出したり，観測された理解力と慣習的な読み取り条件での理解力の差を明らかにしようとしている．幾つかのテスト法が可能である．例えば，(1)被験者にラベルを読むときの“いつもの”“usually”方法で提示されたラベルを読むように要請する方法　(2)店内に刺激的な展示物を架設して，読み取り行動を観察することなどの方法によって，日常の現実味のある環境を真似る方法(AronsonおよびCarlsmith，1968年)　(3)故意に撹乱因子を盛り込むことや，読み取り環境を悪化させ(つまり，照明を落すなど)，被験者が読み取りに要す時間を制限することなど，制限を設けることで，生態的に妥当なOTC環境の模擬実験をする方法AronsonおよびCarlsmith，1968年)などである．

　こうした操作などはOTCラベルの読み取りや処理の動機や機会に影響を与えるものと思われる．ラベルは理解可能でなければならないという規制水準は，ラベル情報に関して最小限の動機付けをされた調査から得た知見とは逆に，理解力テストは消費者の潜在的なラベルの理解力を測定するものでなければならないという意味である．消費者がラベルを読むことを拒否すれば，どれほど文書を単純化したところで，理解度を増すことはないのである．それゆえ，ほとんどの理解度テストでは被験者に対し，初回商品購入・使用の場合でのラベルの読み方で読むように要請している．どのような条件の悪化や動機付けの減弱が，消費者のラベル読み取りの自発性や能力に影響を与えるのかということについては，被験者は調査されていない．

　しかし，このことはすなわち，他の形での模倣が無視されているということを意味しない．例えば，ある製品が第一に美容のために用いられ，消費者が重大な製品の注意書きがあるとは予想していない場合，これとは別に自然状態の模倣調査が行われ，消費者が製品を裏返して製品の横の注意書きを読むかどうかを調べる．

　ほとんどのラベル理解度調査では，被験者にいつものようにラベルを読むように要請するのではあるが，その結果をわれわれは最良の読み取り条件下でのラベル理解度を表すものであると解釈する．実験的需要特性(FernandezおよびTurk，1994年；Orne，1969年)，テスト鋭敏化(Lana，1969年)，その他，長年にわたって了解済みの行動研究のアーチファクト(RosenthalとRosnow，1969年)などは，研究環境でのテスト・ラベルを読み取るための，被験者の興味や努力を悪化させる性質を持つ．

　使用の慣習的状態

　ラベル理解度テストに用いられる実験的な方法は，観察される結果に重大な影響を与える可能性がある．すでに議論したとおり，“使用の慣習的状態”という規制基準は，理解度テストをデザインする上での指導原理である．製品がまだ市販されていないため，消費者を実際の購買環境に置いて観察するなどの，自然な調査は不可能である．例えば，実物大の棚に申請中のラベルを置き，実際の行動を観察し，理解度をテストする，といった方法で模擬実験が行われうる．しかしながら，多くの消費者がテスト製品を選ばないかもしれないし，テスト・ラベルの理解度についてのデータが集められないかもしれないので，そのような模擬実験には費用が掛かり，効果的ではないだろう．

　法的審査基準には調査環境についての審査を含む(Morgan，1990年)．意図した刺激よりも，むしろ調査環境に影響される可能性のある結果は，却下することができる．例えば，Morgan(1990年)は消費者に４つのブランドのテディー・ベア(teddy bears)を試験してもらう，商標を巡る事件を記している．法廷はその(消費者が４つのブランドを見分けることができたという)試験結果は商品を消費者が混同しないという証拠であるという主張を，製品の容器に記されている表記によりブランド名を消費者が知ることできるとして退けた．裁判所はバイアスを生じ，または信頼性に欠ける結果を生じるような調査環境には敏感である．さらに裁判所は実験による根拠はその製品が使用される取引状態を(幾分なりとも)反映する状況で収集されねばならないという考えを持ち続けている．今回の事件では理解度テストは自然な状態を模倣しようとせず，ラベルが読まれる通常の状況での最善のものを代表するものにした．

　刺激物の提示

　コピー・テストと同様に，理解度テストの目的は消費者が提示された刺激にどのように反応し，解釈するかということを把握することである．この目的のために，提示された刺激が最終形態に近ければ近いほど，その結果が消費者の実際の反応を予測できると確信が持てる．ラベルを付けた容器という形で，実物大の完全なラベルを被験者に提示することは，調査刺激の判読性が実際のラベルの特性に合致しているという確信を与える．

　テスト期間中のラベルの状態

　理解度テストのほとんどでは，被験者はラベルを読んだ直後に質問表に回答し始める．いつも問題になるのは，果たしてテスト中ずっとラベルを見せておくべきかどうかということである．消費者のラベルから正しい情報を見つける能力を知ることにより，理解度を正確に測定できるので，スポンサーの中にはテスト中は消費者がラベルをいつでも参照できるようにすべきであるというところもある．他のスポンサーはラベルの情報が使われるとき(消費者が自動車を運転しようとするときなど)には，ラベルは目の前にはなく，関連する情報を記憶から引き出さねばならないと主張している．

　想起・認知問題に関する先の議論での論理を受けて，FDAはラベルを提示したままでテストを行うべきかどうかということは伝達目的や医薬品使用状況で消費者が情報をどのように用いるかについての分析に基づくべきであると示唆した．ある種の結論(例えば，どのような人がその医薬品を使用すべきではないのかという，禁忌に関する記載)については，消費者がラベルを読んだときにすぐに決断がなされなければならない(例えば，ある消費者が高血圧であって，その製品が高血圧には禁忌である場合には，そのことが即座に認識されるのが望ましい)．このことはラベル提示下テストの方が良いということを示唆する．しかしながら，記憶され必要に応じて想起されねばならない指示(例えば，服用中には日光浴を避けるべしという警告)では，ラベル非提示下テストで問題が評価されるべきである．

　カスタム化

　理解度テスト法の開発には，デザイン上，多くの考慮すべき点がある．理解度テストは，大抵は個々の製品の試験にあたっての特別の関心事に応じてカスタマイズされる．この際，常にトレード・オフ関係があることが判る．例えば，能書についての理解力の情報を得るには，被験者が外装ラベルについて質問を受けてから提示される．この方法では被験者には外装ラベルを吟味しており，そのラベルの内容(能書の内容と同一)についての質問を受けているため，能書の理解も増している．

　どんな調査も批判に晒されるとはいえ，FDAはスポンサーのデザイン上で考慮した点についての説明が，何故その方法を採ったのかを理解するのに役立つと考えた．消費者がラベルを理解していることを証明しようと努める者に対立するものとして，ラベルがどれほど適切に理解されているかを評価するために，スポンサーが協調した努力を払っていることを証明する説明は，より一層，説得力がある．

　調査の必要性

　ラベルは意味明瞭なものでなければならないという規制水準は，消費者がラベルを読んだときに理解できるものであるべきだという意味である．よって，通常，スポンサーは強制提示法という方法を用いて，こうしたテストを行ってきた．しかし，どのように強制し，どのように提示するかということは，方法論的な関心事であった．例えば，それはその後にラベルの内容についての質問が続くという意味なのだが，「ラベルを“注意深く”読め」という指示やその他のラベルへの注意を増すような影響を及ぼすものが問題である．ラベルへの提示が長ければ，自然環境下での処理よりも，処理が促進される．自然な読み取り状態を確実に模倣するような指示セットの発見が進展し，注意深いテストが行われることが期待されている．あるいは，様々な指示セットでの読み取りへの関与の評価がテストのデザインをする人や，審査する人に有用な道路図を提供するであろう．

　その他のテスト法も関心を呼んでいる．大抵の場合は，被験者は面接者の居る前で読むラベルを与えられる．この提示時間の間に，FDAは社会的促進影響を最小限にするために，面接者が被験者を残して立ち去ることを勧めている(Lechter1996年)．実際の購買・使用状況では，撹乱させるものや競合する課題の要求が，消費者の読み取り時間・努力を左右する傾向にある．テスト中の遷延し，連続した提示は“使用の際の慣例の状態”を模倣していないように思われる．さらに自然な状態を模倣するテスト法を開発することや，一式のテスト状態を開発し，それが読み取り状態に与える影響を評価することは役立つだろう．

　ほとんどのラベル理解度テストの環境は，実際の購買・使用状態を模倣しようとはしていない．従って，理解度テストの結果は，通常の使用環境下での実際の理解度の規準としてよりも，最高の読み取り環境下でどのラベルが理解しやすいかの規準として，より適切に解釈される．理解度テストが最善の条件と悪条件とでどの程度変るのかということは，ラベル評価テストを開発するにあたり，重要な要素である．その性質についての情報およびこの違いの影響は重要であろう．

　結　論

　FDAがスイッチOTCの申請を受けた時に，医療の監督なしで安全かつ効果的にその製品を消費者が使うことができるかどうかを決めることは，次第に重要になってきている．消費者の理解力を正当に測定する評価方法を開発することは，知識を与える製品ラベルの開発に決定的に重要である．消費者がラベルの指示を理解し，遵守する能力から生じる直接の公衆衛生的な重要性というものがある．

　最近，Mtichell，Van Bennekom，Louik(1995年)は，isotretinoin(Accutane)を処方されている人に対する避妊プログラムの効果を調べた．評価期間中，ユーザーに対して使用に先立って妊娠テストを行うこと，次の月経周期まで服用を控えること，服用後少なくとも1カ月間は効果的な避妊を併用すること，が必要であることをより十分に伝えるために，製薬会社は製品のラベルのデザインを変更した．Mitchellらは，ラベルのデザインの変更により，報告された行動のコンプライアンスが10％から25％へ増加したことを見出した．OTC薬では処方薬の危険性を消費者に示さないかもしれないが，OTC薬は医師の直接の監督なしに流通される．従って，OTC薬のラベルが理解しやすいことが，絶対に必要である．

　理解度テストは，消費者向けのOTC薬情報の質を向上させる可能性を提供する．しかし，この方法論はまだ揺籃期にある．この初期発達段階で，FDAとスイッチOTC薬のスポンサーは，広範な研究方法を検討した．われわれは消費者理解度のテスト法について学ぶに従って，その方法論が進歩することを希望し，期待する．こうして，FDAは回転目標，すなわち，常にOTC薬の理解度テストの質の改善を図ること，を維持する．新しいテスト法は，旧いテスト法よりも良いことが期待される．過去に用いられたテスト法は，厳密な試験法が開発されたならば，許容されないかもしれない．さらには現在許容されるテスト法は，その分野が発達し続け，より厳密な方法で置き換えられるであろう．テスト法が進歩するにつれ，われわれはOTC薬のラベルの理解しやすさも改善することを希望し，期待する．

　どのような示唆を理解度テストのデザイン担当者に与えることができるだろうか．理解度テスト方法論の発達の現段階では，こうした調査を行う者のために，４つの考察あるいは研究法を考えることができる．第一に，測定の予想的妥当性を考えることである．言語運用能力評価と注意企図測定に対する十分な理解が，調査結果の理解には重要である．理解度テストは宣伝・コピーテストよりも探索的な質問をかなり使うことができるのではあるが，バイアスや誘導的な質問は避けられねばならない．横断的方法としては，一つにはシナリオ質問を使うことであり，そこでは被験者にラベルの情報を適用し，ある状況下で被験者たちが行うであろう行動についての質問に答えるように要請される．

　第２に，ラベルが理解可能であることを証明するためにデザインされたテストに対置して，ラベルをどのように改善するのかを理解しようとする診断テストが，より直接的でおそらくは長期間のラベル改善の可能性を与える．ラベル理解度テストの規制監督はあるのだが，それは必ずしも対立する法手続きの一部として審査されるわけではない．最も理解しやすいラベルを創るためのFDAとスポンサーの相互協力(性能の全体としてのレベルの了解とともに)が，ラベル改善の最大の可能性を与える．

　第３に，コントロール使用における流動性が，テストのデザイン担当者には最も理に適った方針のように思われる．テストの結果を解釈するのを助けるための特別なコントロールの質問を開発することは，特異的な伝達要素の理解の向上に役立つ．様々なタイプのコントロール群の値は，個々のテストのデザインの一部として考慮されねばならない．

　第４に，テスト環境と母集団を考慮することが重要である．しかしながら，様々な読み取り指示・環境の外的妥当性を決定することは困難であろう．ここでさらなる開発活動が必要である．

(訳：栗原千絵子)

　付記

　本論文は著者の一人であるFDAのDebra Bowen先生の推薦により，著者らの許可を得て翻訳したものである．

　Comprehension Studyの必要性については多くの指摘があるが，FDAにも公式のガイドラインはない．しかし本稿にもある通り，実際のスイッチ化の際にはその成績が提出されている．その非公開の成績の内容にも具体的に触れている本論文は今後日本でのComprehension Studyの参考になる所が大であろう．

清水直容

1）Senior Vice President of PRR Inc
2）Division of Drug Marketing, Advertising and Communications (HFD-40) and the Office of Drug Evaluation V (HFD-500), Food and Drug Administration (FDA)

「臨床評価」誌トップページへ
VOL.27, Suppl XIV Aug.2000「新一般用医薬品の世界的動向」目次へ