アルゴリズムが差別や偏見を再生産する
そして、ランキング・アルゴリズムの最適化の対象は、そのページがアテンションをえられるかどうか、である。
すなわち、CTRのようなユーザーの反応を示す指標自体が、ランキング評価のパラメーターのひとつになっている。
ここに、アルゴリズムの自己準拠的な循環というパラドックスが生じる。検索結果ランキングが上位であるということは、アルゴリズムがそのページに対してアテンションを払うに値すると判断した結果である。
しかし、ひとたびランキングが上位になれば、まさにそれが上位にあるがゆえにCTRは上昇し、そのCTRというパラメーターの値が高いがゆえに、ページのランキングはさらに上昇することになる。
逆にランキング下位になってしまえば、まさにそのページが下位であるがゆえに、クリックされることがなく、アルゴリズムからは価値の低いページとみなされ、上位のページとの「格差」が拡大していくことになる。
そしてその「格差」は、実際のウェブページの内容の「正確性」や「信頼性」とはほとんど関係がない。
アルゴリズムやAIが、情報の意味論的な「正確性」や「信頼性」を直接判別できないという原理的な問題は、社会におけるアテンションの偏り、すなわちヒューリスティックやステレオタイプといった人間の心理バイアスに基づく判断の偏りがそのままスコアリングやランキングに反映される要因にもなる。
たとえばグーグルの画像検索で「医者・看護師」と入力すると、ほとんどの画像が「男性医師」と「女性看護師」の組み合わせになると指摘されている。
これは、グーグルの画像識別のアルゴリズムおよびAIが、社会における実際のデータの分布に基づいて動作した結果である。いわば社会の中で暗黙のうちに共有されているステレオタイプや偏見を、ある意味では忠実に再現した結果なのだ。
また、黒人女性でAI研究者のジョイ・ブオラムウィニは、既存の顔認証システムの識別AIでは、白人男性の判定は問題なくできるのに、黒人女性の場合はエラーになることが多いことを発見した。
そもそもAIの学習データには、白人男性のデータばかりが使われており、黒人や女性のデータは相対的に少ないという偏りがあり、識別の精度が歪んでしまったのだという。
このような偏りは、アルゴリズムやAIが、社会の中の歪んだデータの分布や、人間が暗黙のうちに期待するようなステレオタイプに最適化されることによって、ときに差別や格差を再生産したり拡大したりする危険性を示すものといえるだろう。
ランキング・アルゴリズムをアテンションに忠実に実行したがゆえのこの「偏り」のパラドックスは、検索エンジンに限らず、日常生活におけるさまざまな計算論的なランキングにおいてもしばしばみられる現象である。
音楽のヒットチャートのような例においても、ある楽曲が(その楽曲の作品としての魅力が高いかどうかとは別に)ランキング上位を獲得したがゆえに聴く人が増え、聴く人が増えたからさらにそのランキングが上昇する、という現象は日常的にみられることだろう。
多くのウェブサイトの送り手がSEO(検索エンジン最適化)という手法を駆使してなんとか検索ランキングの上位に自社のコンテンツを上げようとするのも、このような構造が背景にある。
脚注
※1 情報量が人間の処理能力の限界を超えており、適切に情報を処理・活用できない状態のこと













