Categories: 未分類

平均意見スコア

どこ R { R}

は、与えられた刺激に対する個々の評価です。 N { N}

科目。

MOSの特性
MOS は、特定の数学的特性とバイアスの影響を受けます。一般に、体験の質を単一のスカラー値で定量化するための MOS の有用性については、進行中の議論が
カテゴリー評価尺度を使用して MOS を取得する場合、MOS はリッカート尺度と同様に順序尺度に基づいています。この場合、スケール項目のランキングはわかっていますが、それらの間隔はわかっしたがって、中心傾向を得るために個々の評価の平均を計算することは数学的に正しくありません。代わりに中央値を使用する必要がしかし、実際には、MOS の定義では、算術平均を計算することは許容できると考えられています。
カテゴリ評価尺度 (ACR など) では、個々の項目が被験者によって等距離に認識されないことが示されています。たとえば、GoodとExcellentの間よりもGoodとFairの間の「ギャップ」の方が大きい場合が知覚される距離は、スケールが翻訳される言語によっても異なる場合がただし、スケール変換が得られた結果に大きな影響を与えることを証明できなかった研究が存在します。
通常、MOS 定格を取得する方法には、他にもいくつかのバイアスが存在します。非線形に知覚されるスケールに関する上記の問題に加えて、いわゆる「範囲均等化バイアス」が被験者は、主観的な実験の過程で、評価尺度全体。これにより、提示される品質の範囲が異なる場合、2 つの異なる主観的テストを比較することができなくなります。言い換えれば、MOS は品質の絶対的な尺度ではなく、それが取得されたテストに関連するものです。
上記の理由、および主観的テストで知覚される品質に影響を与える他のいくつかのコンテキスト要因により、MOS 値は、値が収集されたコンテキストが既知であり、報告されている場合にのみ報告する必要がしたがって、さまざまな状況やテスト設計から収集された MOS 値を直接比較するべきではありません。勧告ITU-T P.800.2は、MOS 値を報告する方法を規定しています。具体的には、P.800.2 は次のように述べています。
個別の実験から得られた MOS 値を直接比較することは意味がありません。それらの実験が明示的に比較されるように設計されていない限り、そのような比較が有効であることを確認するためにデータを統計的に分析する必要が

音声およびオーディオ品質推定用の MOS
MOS は歴史的に、リスナーが「静かな部屋」に座って、電話の通話品質を知覚するという主観的な測定に由来します。この種のテスト方法は、テレフォニー業界で数十年にわたって使用されており、ITU-T 勧告 P.800で標準化されています。「話し手は、容積が 30 ～ 120 m³ で、残響時間が 500 ミリ秒未満（できれば 200 ～ 300 ミリ秒の範囲）の静かな部屋に着席する必要がスペクトルの支配的なピーク。」他のモダリティの要件は、後の ITU-T 勧告で同様に指定されました。

品質モデルを使用した MOS 推定
MOS 評価を取得するには、人間の評価者を採用する必要があるため、時間と費用がかかる場合がコーデック開発やサービス品質監視などのさまざまなユースケース (品質を繰り返し自動的に推定する必要がある場合) では、客観的な品質モデルによって MOS スコアを予測することもできます。これは通常、人間の MOS 評価を使用して開発およびトレーニングされています。このようなモデルを使用することから生じる問題は、生成された MOS の違いがユーザーに認識されるかどうかです。たとえば、5 ポイントの MOS スケールで画像を評価する場合、MOS が 5 に等しい画像は、MOS が 1 に等しい画像よりも品質が著しく優れていると予想されます。 3.8 に等しい MOS は、3.6 に等しい MOS よりも品質が著しく優れています。デジタル写真のユーザーが知覚できる最小の MOS 差を決定するために実施された調査では、ユーザーの 75% がより高品質の画像を検出できるようにするには、約 0.46 の MOS 差が必要であることが示されました。それにもかかわらず、画質への期待、つまり MOS は、ユーザーの期待の変化に伴って時間とともに変化します。その結果、などの分析方法を使用して決定された最小の顕著な MOS 差は、時間の経過とともに変化する可能性が

こちらもご覧ください
絶対カテゴリ評価
リッカート尺度
MUSHRA (勧告ITU-R BS.1534)
客観的なビデオ品質
主観的なビデオ品質

参考文献
^ ITU-T 勧告。P.10/G.100 （2017) パフォーマンス、サービスの質、体験の質に関する語彙。
^ Huynh-Thu， Q.; ミネソタ州ガルシア; スペランザ、F.; Corriveau、P。Raake、A. （2011-03-01)。「高解像度ビデオの主観的品質評価のための評価尺度の研究」。ブロードキャストに関する IEEE トランザクション。57 (1): 1–14. doi : 10.1109/TBC.2010.2086750 . ISSN 0018-9316 .
^ ホスフェルド、トビアス。Heegaard、ポールE。バレラ、マルティン。メラー、セバスチャン（2016-12-01)。「MOS を超えた QoE: より良いメトリクスと MOS との関係による QoE の詳細な考察」. 品質とユーザーエクスペリエンス。1 (1): 2. arXiv : 1607.00321 . ドイ: 10.1007/s41233-016-0002-1 . ISSN 2366-0139。
^ ジェイミーソン、スーザン。「リッカート尺度: 使用方法 (ab)」医学教育 38.12 （2004): 1217-1218. ^ Streijl、Robert C.、Stefan Winkler、David S. Hands. 「平均オピニオンスコア (MOS) の再検討: 方法とアプリケーション、制限と代替案。」マルチメディアシステム 22.2 （2016): 213-227。
^ ピンソン、MH; Janowski、L.; ペピオン、R。Huynh-Thu、Q.; Schmidmer、C。Corriveau、P。ユンキン、A。カレット、P.ル。Barkowsky、M. 。「視聴覚主観テストに対する被験者と環境の影響：国際研究」（PDF） . 信号処理で選択されたトピックの IEEE ジャーナル。6 (6): 640–651. ドイ: 10.1109/jstsp.2012.2215306 . ISSN 1932-4553。
^ Zielinski、Slawomir、Francis Rumsey、Søren Bech. 「現代のオーディオ品質リスニングテストで見られるいくつかの偏りについて - レビュー」オーディオ工学会誌 56.6 （2008): 427-451.

Mean_opinion_score
平均オピニオンスコア(MOS) は、 Quality of Experienceおよび電気通信工学の分野で使用される尺度であり、刺激またはシステムの全体的な品質を表します。これは、すべての個々の「被験者がシステム品質のパフォーマンスの意見に割り当てる事前定義されたスケールの値」の算術平均です。このような評価は通常、主観的な品質評価テストで収集されますが、アルゴリズムで推定することもできます。
MOS は、ビデオ、オーディオ、およびオーディオビジュアルの品質評価に一般的に使用される尺度ですが、これらのモダリティに限定されません。ITU-Tは、勧告ITU-T P.800.1でMOS を参照するいくつかの方法を定義しています。これは、スコアが視聴覚、会話、リスニング、会話、またはビデオ品質テストから取得されたかどうかに応じて異なります。
コンテンツ
1 評価尺度と数学的定義
2 MOSの特性
3 音声およびオーディオ品質推定用の MOS
4 品質モデルを使用した MOS 推定
5 こちらもご覧ください
6 参考文献

評価尺度と数学的定義
MOS は、通常は 1 ～ 5 の範囲の 1 つの有理数として表されます。1 は知覚される品質が最も低く、5 は知覚される品質が最も高くなります。基礎となるテストで使用された評価尺度に応じて、他の MOS 範囲も可能です。絶対カテゴリ評価スケールは非常に一般的に使用され、下の表に示すように、悪いと非常に良い間の評価を 1 から 5 の数値にマッピングします。
評価
ラベル 5 優秀な 4 良い 3 公平 2 貧しい 1 悪い
その他の標準化された品質評価尺度は、ITU-T 勧告( ITU-T P.800やITU-T P.910 など) に存在します。たとえば、1 ～ 100 の連続スケールを使用できます。どのスケールを使用するかは、テストの目的によって異なります。特定の状況では、異なる尺度を使用して得られた同じ刺激に対する評価間に統計的に有意な差はありません。
MOS は、主観的品質評価テストで特定の刺激に対して被験者が行った単一の評価の算術平均として計算されます。したがって：M 〇 S = ∑ n = 1 NR n N
{ MOS={frac {sum _{n=1}^{N}{R_{n}}}{N}}}

どこ R { R}

は、与えられた刺激に対する個々の評価です。 N { N}

科目。

こちらもご覧ください
絶対カテゴリ評価
リッカート尺度
MUSHRA (勧告ITU-R BS.1534)
客観的なビデオ品質
主観的なビデオ品質

参考文献
^ ITU-T 勧告。P.10/G.100 （2017) パフォーマンス、サービスの質、体験の質に関する語彙。
^ Huynh-Thu， Q.; ミネソタ州ガルシア; スペランザ、F.; Corriveau、P。Raake、A. （2011-03-01)。「高解像度ビデオの主観的品質評価のための評価尺度の研究」。ブロードキャストに関する IEEE トランザクション。57 (1): 1–14. doi : 10.1109/TBC.2010.2086750 . ISSN 0018-9316 .
^ ホスフェルド、トビアス。Heegaard、ポールE。バレラ、マルティン。メラー、セバスチャン（2016-12-01)。「MOS を超えた QoE: より良いメトリクスと MOS との関係による QoE の詳細な考察」. 品質とユーザーエクスペリエンス。1 (1): 2. arXiv : 1607.00321 . ドイ: 10.1007/s41233-016-0002-1 . ISSN 2366-0139。
^ ジェイミーソン、スーザン。「リッカート尺度: 使用方法 (ab)」医学教育 38.12 （2004): 1217-1218. ^ Streijl、Robert C.、Stefan Winkler、David S. Hands. 「平均オピニオンスコア (MOS) の再検討: 方法とアプリケーション、制限と代替案。」マルチメディアシステム 22.2 （2016): 213-227。
^ ピンソン、MH; Janowski、L.; ペピオン、R。Huynh-Thu、Q.; Schmidmer、C。Corriveau、P。ユンキン、A。カレット、P.ル。Barkowsky、M. 。「視聴覚主観テストに対する被験者と環境の影響：国際研究」（PDF） . 信号処理で選択されたトピックの IEEE ジャーナル。6 (6): 640–651. ドイ: 10.1109/jstsp.2012.2215306 . ISSN 1932-4553。
^ Zielinski、Slawomir、Francis Rumsey、Søren Bech. 「現代のオーディオ品質リスニングテストで見られるいくつかの偏りについて – レビュー」オーディオ工学会誌 56.6 （2008): 427-451.
^ Katsigiannis、S。Scovell、JN。Ramzan、N.; Janowski、L.; Corriveau、P。サード、M。Van Wallendael、G. （2018-05-02)。「MOS スコアの解釈、ユーザーはいつ違いを確認できますか? 写真品質のユーザーエクスペリエンスの違いを理解する」. 品質とユーザーエクスペリエンス。3 (1): 6.ドイ: 10.1007/s41233-018-0019-8 . hdl : 1854/LU-8581457 . ISSN 2366-0139。”

admin