AIを知る、ということ

本日、Googleのサービス説明会にて、面白いお話しを伺いましたので、共有したいと思います。

Google 翻訳:
https://translate.google.co.jp/?hl=ja
にて、左側の欄に、

彼は誕生日を忘れたので、彼女は怒った。

と入力してください。

右側の翻訳結果を見ると、
She got angry because he forgot her birthday.
となり、”her”という代名詞まで見事に推測されています!
日本語文章には記載されていないのに、すごいですね。
日本語のあいまい表現を上手に意訳してくれています。

では次に、彼女と彼を入れ替えて、

彼女は誕生日を忘れたので、彼は怒った。

と入力してください。
どうでしょう、”her”という代名詞、そのまま残っていますね。
He got angry because she forgot her birthday.
文章としては間違っていないのですが、
大方の日本人がイメージするのとは違う結果となりました。
もちろん、

彼女は彼の誕生日を忘れたので、彼は怒った。

と入力してあげれば、期待通りの翻訳をしてくれます。

今のAIサービスは機械学習という技術が主に使われていますが
この技術は、元となる学習データの影響を強く受けます。
Google 翻訳もネット上で収集した文章データを元に翻訳しますが、
誕生日を忘れて怒るという文章は女性側が多いため
この類の文章が出てくると、主語が男性だろうと”her”を入れてしまうのだろう
(Googleが独自ルールで”her”を入れているのではなく、学習結果)
と言われていました。
明記されていない内容については、AI側が予測するしかないですからね。

こういった、ネット上の情報を使う場合の情報の偏りによって
本来そうであるべき結果と違う
(中立的でない)答えを出してしまうケースは、
他にも報告されています。
https://gigazine.net/news/20150702-google-photos-gorilla/
https://jp.techcrunch.com/2016/11/09/20161107why-its-so-hard-to-create-unbiased-artificial-intelligence/
https://www.theverge.com/2017/4/12/15271874/ai-adversarial-images-fooling-attacks-artificial-intelligence

以下リンクは、2018/11/19に追記:
https://business.nikkeibp.co.jp/atcl/report/16/110800252/111300003/?P=2

機械学習が多数データに重みを置いて推定してしまうという特性上、
やはりネットに多く情報を掲載している地域、人種などの影響を
強く受けてしまいます。
そしてこれは、ネット上の問題だけでなく、工場や店舗、果ては医療など
収集したデータに偏りがあれば、どんなデータでも起こりうることです。
https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

いずれ技術の向上や知識の蓄積とともに消えてくる問題ではあるはずですが、
AI共存時代の黎明期には、このようなことが起こりえます。

本トップページでもお伝えしていますが、
『Dr.+エジソン』では、プログラミング技術だけでなく、
こどもたちに、AIとコンピュータの可能性と問題について
伝えていくことで、このような状況がいずれ目の前に現れてきたときに
結果を鵜呑みにすることなく正しく対処できる子に育てたい、
と考えています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です