「もしもし」だけで音声複製=ディープフェイク詐欺が急増

サンパウロ州市警は、人工知能(AI)を用いてわずか数秒の通話音声から被害者の声を巧妙に複製し、家族になりすまして金銭を要求する新たな詐欺手口に警戒を呼びかけている。犯行には「ディープフェイク」と呼ばれる高度な技術が使われ、SNSや盗難された身分証明書の写真などが悪用されるケースが多く、被害件数は過去最多を記録している。巧妙化する手口の実態とその防止策について3日付フォーリャ紙など(1)(2)が報じた。
警察によると、詐欺の第1段階では、無言電話を受けた数秒間の間に録音された「もしもし」などの音声から、AIが声の特徴を抽出。声のトーンや話し方の癖を解析することで、犯人は被害者の声を極めて高い精度で再現することが可能となる。
第2段階では、複製した音声を使って被害者の家族や友人に連絡し、本人になりすまして急を要する金銭の振込や個人情報の提供を要求する。サンパウロ州市警の公式SNSでは、「AIにより本人の話し方が模倣され、家族すらも騙される深刻な詐欺が広がっている」と注意喚起する。
この「ディープフェイク」とは、実在する音声や映像をもとに、人工的に作り出したコンテンツを生成する技術だ。近年はこの技術が銀行口座への不正アクセスなど、他のサイバー犯罪にも応用され始めている。
デジタル本人確認や不正防止技術を手がけるIDwall社の技術責任者、ダニエル・バルソッチ氏によれば、「わずか3秒の音声があれば、最新のAI技術で声を高精度に模倣できる」という。
犯人はこうした音声を得るため、被害者のSNSアカウントに投稿された動画や音声ファイルを収集するほか、盗難された身分証明書の画像なども利用している。専門家らは、こうした個人情報公開が被害リスクを高めていると警鐘を鳴らす。
アラゴアス州の市警も同様の手口への警戒を強め、SNSに投稿された動画の音声が悪用されている実態に言及。数秒の公開音声からでも、長時間の偽音声を生成することが可能であり、誰でも閲覧可能であることからリスクは極めて高いという。偽音声は本人の声とほぼ区別がつかないほど精巧で、それを使って親族や知人に接触し、金銭や個人情報を引き出す事例が後を絶たない。
一方、ChatGPTを開発したOpenAI社は昨年3月、音声の複製技術について「悪用を防ぐため、安全対策が整うまでは厳重な管理を行う」との声明を発表。当時は約15秒の音声が必要とされていたが、技術の進化により、現在では3秒程度でも複製が可能とされる。
7月に公表された最新のブラジル治安年鑑によれば、昨年の詐欺事件は過去最多の216万件に上り、1時間あたり約247件のペースで発生している。16歳以上の国民の約5人に1人に相当する3200万人以上が、過去1年間に自身または家族の個人情報を悪用され、恐喝脅迫の被害を受けている。これによる経済的損失は推定で242億レアルに達する。
警察は、こうした「無言電話型」の詐欺に対する予防策として、不審な番号からの着信には不用意に応答せず、特に「はい」や「もしもし」などの発声を控えるよう呼びかける。最初の一言がAIによる音声複製に悪用される恐れがあるため、通話中は沈黙を保つことが推奨されている。数秒で切れる無言電話を受けた場合は、速やかに着信番号をブロックし、通信会社や警察に通報するよう求めている。
加えて、SNSアカウントを非公開に設定し、オンライン上での個人情報の発信を極力控えることも重要だとされる。
デジタルセキュリティ専門家は、緊急時用の「合言葉」を家族や信頼できる友人間であらかじめ共有しておくことを強く推奨。この合言葉は、金銭や情報の提供を求められた際に、その要求が本物かどうかを確認するための有効な手段となる。
合言葉を定めていない場合、ビデオ通話で相手の顔を確認するほか、「自宅の壁」や「一緒に暮らすペット」など本人しか映せないものをリアルタイムで提示してもらうといった方法で、連絡の真正性を確認することが望ましい。
もし家族や友人から金銭の要求があった場合には、必ず別の通信手段でその真偽を確認し、送金先の口座番号なども慎重に確認する必要がある。こうした情報を家族や知人と日頃から共有しておくことが、被害の拡大を防ぐうえで重要だと警察は強調している。