AIブーム

AIブーム（英語: AI boom）またはAIの春（英語: AI spring）とは、2010年代後半に始まり、2020年代初頭に国際的に注目を集めるようになった、人工知能（AI）分野における急速な技術進歩の時代である。例としては、Google DeepMindが主導するAlphaFoldや、OpenAIが開発したChatGPTなどが挙げられる。AIの春は、AIの冬の対比として用いられる。

歴史

2012年、トロント大学の研究チームは、人工ニューラルネットワークとディープラーニング技術を用いて、コンピュータビジョンにおける物体認識のImageNetチャレンジにおいて、初めて誤り率を25%以下に下げた。この出来事が、ImageNetチャレンジの多くの卒業生がテクノロジー業界のリーダーになった2010年代後半のAIブームのきっかけとなった。2016年3月、AlphaGoは5番勝負で李世乭を破り、コンピュータ囲碁プログラムがハンディキャップなしで9段のプロに勝利したのは初めてのことである。この試合は、AIに対する国民の関心を大きく高めることとなった。生成的AI競争は、OpenAIの設立と、グラフィックス処理装置（GPU）、訓練データの量と質、敵対的生成ネットワーク、拡散モデル、Transformerアーキテクチャにおける初期の進歩を受けて、2016年または2017年に本格的に始まった。2018年、スタンフォード大学のイニシアチブである人工知能指数は、AIにおける商業的および研究的努力の世界的な爆発的増加を報告した。その年、AI分野で最も多くの論文を発表したのはヨーロッパであり、続いて中国、北米であった。AlphaFoldのような技術は、タンパク質折りたたみのより正確な予測につながり、創薬のプロセスを改善した。経済学者や立法者は、AIの潜在的な影響についてより頻繁に議論し始めた。2022年までに、大規模言語モデル（LLM）はチャットボットアプリケーションで使用が増加し、テキスト画像生成モデルは人間が作ったように見える画像を生成することができ、音声合成ソフトウェアは人間の言葉を効率的に複製できるようになった。

2017年から2021年までの指標によると、米国はベンチャーキャピタル資金、スタートアップの数、AIで付与された特許の点で世界の他の国々を凌駕している。米国に移住した科学者は、米国のAI技術開発において非常に大きな役割を果たしている。彼らの多くは中国で教育を受けており、両国関係の悪化の中で国家安全保障上の懸念についての議論を巻き起こしている。

専門家は、AI開発を米国と中国の間の経済的および地政学的な優位性のための競争として捉えている。2021年、外交問題評議会のアナリストは、中国の進歩の中で米国がどのようにその地位を維持できるかについて概説した。2023年、戦略国際問題研究所のアナリストは、米国が貿易協定に依存するのではなく、AI技術における優位性を利用して外交政策を推進することを提唱した。

進歩

生物医学

AIを利用して人間の寿命を飛躍的に延長するための提案がされてきた。

CASPのグローバル距離テスト（GDT）におけるAlphaFold 2の90点以上のスコアは、計算生物学における大きな成果であり、数十年にわたる生物学の大きな課題に対する大きな進歩と考えられている。ノーベル賞受賞者で構造生物学者のヴェンカトラマン・ラマクリシュナンは、この結果を「タンパク質折りたたみ問題における驚くべき進歩」と呼び、「この分野の多くの人が予測していたよりも数十年早く起こった」と付け加えた。

構成アミノ酸配列に基づいてタンパク質構造を正確に予測する能力は、創薬を加速し、病気のより良い理解を可能にすると期待されている。AIアルゴリズムは、「タンパク質の形状を原子の幅以内で予測できる」と述べている。

画像と動画

OpenAIがTransformerシステムであるDALL-Eを発表した2021年1月、テキスト画像生成モデルは広く国民の注目を集めた。複雑でリアルな画像を生成できる後継機、DALL-E 2は、2022年4月に発表された。代替のテキスト画像生成モデルであるMidjourneyは、2022年7月にリリースされた。もう1つの代替のオープンソースモデルStable Diffusionは、2022年8月にリリースされた。

他のテキスト画像生成モデルに続いて、Runway、OpenAIのSora、DAMO、Make-A-Video、Imagen Video、Phenakiなどの言語モデルを搭載したテキストビデオ生成モデルプラットフォームは、テキストだけでなく画像プロンプトからも動画を生成できる。

言語

GPT-3は、2020年にOpenAIによってリリースされた大規模言語モデルであり、人間のような質の高いテキストを生成することができる。このツールは、リリース後、AIブームを促進し、加速させたとして評価されている。GPT-3.5と呼ばれるアップグレード版はChatGPTで使用され、その後、多くの知識分野にわたる詳細な応答と明瞭な回答で注目を集めた。GPT-4と呼ばれる新しいバージョンは2023年3月14日にリリースされ、Microsoft Bing検索エンジンで使用された。GoogleによるPaLMやGemini、Meta PlatformsによるLLaMAなど、他の言語モデルもリリースされている。

2023年1月、単一言語テキストを改善するためのAIベースのツールであるDeepL Writeがリリースされた。2023年12月、Googleの最新モデルであるGeminiが発表され、ほとんどのベンチマークで従来の最先端モデルGPT-4を上回ると主張している。

音楽と音声

2016年、Google DeepMindは、英語、北京語、ピアノ音楽を生成するディープラーニングネットワークであるWaveNetを発表した。

2020年には、非商用のフリーウェア人工知能ウェブアプリケーション15.aiがリリースされた。15.aiは、コンテンツ作成におけるAI音声クローニングを普及させたことで知られており、初めて公開されたAI音声合成アプリケーションであり、複数のインターネットファンダム、特に『マイリトルポニー〜トモダチは魔法〜』と『チームフォートレス2』のファンダムに大きな影響を与えた。

ElevenLabsは、ユーザーが音声サンプルをアップロードし、サンプルと似たような音声を作成できるようにした。物議を醸す発言が有名人、公務員、その他の著名人の声のスタイルに基づいて生成された後、この技術がディープフェイクをさらに説得力のあるものにする可能性があるという懸念が高まり、同社は批判された。ミュージシャンドレイクとザ・ウィークエンドの声を使って作られた非公式の歌は、同様のソフトウェアの倫理と合法性について疑問を投げかけた。

影響

AIブームは、文化、哲学、宗教、経済、そして社会に重大な影響を与える可能性があり、AIアライメント、クオリア、汎用人工知能（AGI）の開発といった問題が、広く議論されるようになった。AIは、教育、医療、輸送など、様々な分野に応用できる可能性がある。

文化

AIブームの中で、AI開発を可能な限り加速させたいグループから、AIの安全性についてより懸念を抱き、「減速」させたいグループまで、様々なグループが出現した。

ビジネスと経済

巨大テック企業は、AIブームを機会と脅威の両方と見なした。例えば、Alphabet傘下のGoogleは、ChatGPTがイノベーションのジレンマのようにGoogle検索に取って代わる可能性があることに気づいた。同社は、AI研究を加速させるために、DeepMindと社内ライバル部門であるGoogle Brainを合併させた。

生成的AIモデルの訓練と使用に高い需要があるGPUを製造するNvidiaの時価総額は、2024年6月19日時点で3.3兆米ドルを超え、世界の時価総額で世界最大の企業となった。

2023年、サンフランシスコの人口は数年ぶりに増加し、ブームがその要因として挙げられている。

機械学習のリソース、ハードウェアまたはソフトウェアは、既製品として、またはクラウドプラットフォームサービスとして購入およびライセンス供与できる。これにより、AIスキルを普及させ、広く一般に利用できるようになる。半数以上の企業が、AIを組織の最優先事項であり、数十年のうちで最も重要な技術的進歩と考えている。

様々な業界で、生成的AIツールはAIブームを通じて広く利用できるようになり、地域全体でビジネスにおいてますます使用されている。主な用途はデータ分析である。漸進的な変化と見なされる機械学習は、業界のパフォーマンスを向上させる。企業は、AIがプロセスの効率向上、意思決定の改善、既存のサービスと製品の強化に最も役立つと報告している。AIの導入により、複数のビジネス機能で収益創出にプラスの影響が及んでいる。企業は、主に製造、リスク管理、研究開発において、最大16%の収益増加を経験している。

AIと生成的AIへの投資はブームとともに増加しており、2014年の180億ドルから2021年には1190億ドルに増加した。特に、生成的AIへの投資の割合は2023年には約30%であった。さらに、生成的AI事業は、規制と経済の見通しが依然として不透明であるにもかかわらず、かなりのベンチャーキャピタル投資を受けている。

テック大手は、AIからの金銭的利益の大部分を得ており、個人ユーザーや他の企業の主要なサプライヤーまたは顧客として機能している。

懸念

不正確さ、サイバーセキュリティ、知的財産の侵害は、ブームに伴う主なリスクと考えられているが、積極的にリスク軽減を試みている人は多くない。大規模言語モデルは、民族性や性別に関連する差別的なバイアスを含む、訓練データから継承されたバイアスを再現することについて批判されている。デュアルユース技術として、AIは悪意のある行為者による誤用のリスクを伴う。AIがより洗練されるにつれて、最終的には人間の労働者よりも安価で効率的になる可能性があり、それが技術的失業と経済的混乱の移行期間を引き起こす可能性がある。AIブームに対する国民の反応はさまざまであり、AIが生み出す新しい可能性、その高度さ、人類に利益をもたらす可能性を称賛する人もいれば、雇用の安全を脅かすことや、「不気味」または欠陥のある回答をすることを非難する人もいる。

テック大手による支配

商業AIシーンは、Alphabet、Amazon、Apple、Meta Platforms、Microsoftなどのアメリカのビッグ・テック企業によって支配されており、これらの企業のこの分野への投資は、米国に拠点を置くベンチャーキャピタリストからの投資を上回っている。これらのプレーヤーの一部は、既存のクラウドインフラストラクチャ、AIチップ、データセンターからのコンピューティング能力の大部分をすでに所有しており、市場での地位をさらに強固なものにしている。

知的財産

Meta、OpenAI、Nvidiaなどのテクノロジー企業は、AIモデルの訓練に作品を使用したとして、アーティスト、作家、ジャーナリスト、ソフトウェア開発者から訴訟を起こされている。初期の生成的AIチャットボット（GPT-1など）はBookCorpusを使用しており、書籍は依然として高品質な言語モデルを生成するための最良の訓練データソースである。ChatGPTは、サラ・シルバーマンの『寝小便』のすべての部分の詳細な要約と『ニューヨーク・タイムズ』からのペイウォールコンテンツの逐語的な抜粋を作成した後、海賊版コンテンツのライブラリを含むという疑惑を引き起こした。

肖像と偽装

説得力のあるパーソナライズされたメッセージとリアルな画像を生成する能力は、大規模な誤情報、操作、プロパガンダを促進する可能性がある。

2024年4月19日、ケンドリック・ラマーとの確執の一環として、アーティストのドレイクはディストラック Taylor Made Freestyleをリリースした。この曲には、2パックとスヌープ・ドッグの声を模倣した生成されたボーカルがフィーチャーされている。2パックの遺産管理団体は、2パックの肖像の使用について訴訟を起こすと脅迫し、それが2パックの人格権の侵害にあたると述べた。

2024年5月20日、OpenAIのChatGPT音声モード機能のアップデートのデモが1週間前にリリースされたことを受けて、俳優のスカーレット・ヨハンソンは声明を発表し、ヨハンソンがシステムに彼女の声を提供するという同社からの以前の申し出を拒否したにもかかわらず、デモで示された「Sky」の声は彼女自身の声、そして映画『her/世界でひとつの彼女』（2013年）での人工知能音声アシスタント、サマンサの彼女の描写に非常に似ているとOpenAIを非難した。Skyの声を担当した無名の声優は、ヨハンソンのように聞こえるように指導され、彼女自身の声を使ったと述べている。

同意のないディープフェイクポルノの共有に関する事件がいくつか発生している。2024年1月下旬、テイラー・スウィフトのディープフェイク画像が拡散した。何人かの専門家は、この技術の利用が比較的容易であるため、ディープフェイクポルノがより迅速に作成および拡散されると警告している。カナダは、同意のない性的に露骨なAI生成写真の共有を対象とする連邦法を導入した。ほとんどの州にはすでにそのような法律があった。米国では、2024年3月にDEFIANCE法が導入された。

環境

生成的AI製品の電力供給には大量の電気が必要であり、企業がネット・ゼロ・エミッションを達成することをより困難にしている。2019年から2024年にかけて、Googleの温室効果ガス排出量は50%増加した。

バイオセキュリティとサイバーセキュリティ

AI安全性センターの研究者は、AIが「サイバー攻撃のアクセス性、成功率、規模、速度、ステルス性、および効力を向上させる」と予想しており、防御よりも攻撃を強化する場合、「重大な地政学的混乱」を引き起こす可能性があると述べている。将来のAIシステムが特に致命的で伝染性の高い病原体を設計する潜在的な能力について懸念が提起されている。

AIブームは、大企業が市場で最も強力なAIモデルを持つために互いに競争する軍拡競争を引き起こしたと言われており、安全性とユーザー保護よりも速度と利益が優先されている。