【2024】LAION-5Bとは?概要やデータセット作成の流れ、用途や問題点もご紹介!

【2024】LAION-5Bとは?概要やデータセット作成の流れ、用途や問題点もご紹介!

専門知識がなくても使える手軽さ、そして高い生成クオリティも相まってビジネスシーンでの活用も広がりつつある、画像の自動生成AI。

そんな画像の自動生成AIを裏で支えている重要なモデルに「LAION-5B」が存在します。ふだんから画像生成AIに触れていても、聞き馴染みのない方は多いでしょう。

今回の記事は「LAION-5B」について深堀りしたものです。詳しい概要をはじめ、作成された背景や生成フロー、主な用途や問題点について言及していきます。

LAION-5Bとは?

「LAION-5B」とは?

引用:LAION-5B公式サイト

「LAION-5B」とは、ドイツの非営利団体「LAION(Large-scale Artificial Intelligence Open Network)」が運営する大規模データセットです。

そもそもデータセットとは「特定の目的のもとに特定の形式で整備されたデータのかたまり」の総称のことで、主に機械学習やAI開発で使われます。ひとえにデータセットといっても形式にはさまざまな種類があり、画像や動画、音声やテキスト、さらには動画を網羅しているものまで多種多様です。

本記事で紹介している「LAION-5B」は主に画像とテキストのデータを取り扱っているデータセットです。画像生成AIのトレーニングおよび研究の目的をもと、開発された背景があります。

その他LAION-5Bの概要を一覧にまとめると、以下のとおりです。

概要 画像とテキストの大規模データセット
運営会社 非営利団体「LAION」(ドイツ)
セータセット内容
  • インターネット上の画像
  • インターネット上のアドレスおよびURL
  • インターネット上の画像内のalt文字列
  • インターネット上のテキストデータ
  • その他アノテーション
主な用途・目的
  • 画像自動生成AIのトレーニング
  • 実験および研究の民主化
パッケージの種類
  • laion2B-en
  • laion2B-multi
  • laion1B-nolang
主な活用例 CLIP技術を活用した大規模なAI研究および開発
(例:画像自動生成AI「Stable Diffusion」のトレーニング)

画像生成AI「Stable Diffusion」について詳しく知りたい方は、ぜひ以下の記事を参考にしてください。

【2024】Japanese Stable Diffusionとは?概要やメリットをくわしく解説!

LAION-5Bの特徴

「LAION-5B」の大きな特徴として、以下のようなものが挙げられます。

  1. 約60億個の画像およびテキストが網羅されている
  2. CLIP処理が用いられている
  3. 画像生成AI「Stable Diffusion」で活用されている

「LAION-5B」に組み込まれている画像およびテキストの量はなんと約60億。どんなジャンルの画像生成も十分にこなせるポテンシャルを誇ります。

またChatGPTで有名なアメリカのOpenAI社が開発したモダンな技術「CLIP処理」を採用。これによってテキスト(主にalt文字列)と画像の関連性の高さの判別」が可能になりました。

そして本記事後半でも紹介しますが、LAION-5Bは大手画像生成AIツール「Stable Diffusion」に用いられていることも大きな特徴といえます。

LAION-5Bの作成に至るまでの背景

LAION-5Bは主に以下のような背景から作成に至りました。

  • データセットの研究および実験を民主的なものに変えていくため
  • データセットの研究および実験のコミュニティをさらに拡大させるため

それぞれ詳しく見ていきましょう。

データセットの研究および実験を民主的なものに変えていくため

作成までの背景ひとつ目は「データセットの研究と実験を、より民主的なものにしていくため」です。

もともとLAION-5Bは、独自の大規模マルチモーダルモデル(複数種類のデータを一括処理できるAIモデル)を採用していました。
ただ、このマルチモーダルモデルは高性能で重宝されていたとえはいえ、一方のモデル構築で必要になる大規模データセットが一般の方にとって使いにくいという点が問題でした。

この問題への対策としてLAIONはWeb上にて自動でクロールされたデータを解析し、目的に沿った画像とテキストを自動で生成してくれるデータセット」を採用。

これによって一般の方もよりデータセットの研究および実験を容易にできるようにし、学習および画像生成の精度向上につなげています。

データセットの研究および実験のコミュニティをさらに拡大させるため

もうひとつの背景は「データセットの研究および実験のコミュニティをさらに拡大させるため」です。

そもそも言語モデルのトレーニングには大規模なデータセットが不可欠。にもかかわらず、当時はほとんどそのようなものは存在しませんでした。

さらにLAION-5Bの研究および実験のコミュニティを使えるのは、当時「データセットへのアクセスが可能なユーザー」に限定されていました。
そのため研究者の数も少なく、なかなか研究およびトレーニングが捗らないのが課題でした。

その対策としてLAIONは画像とテキストのペアを徹底して収集し、それに必要なオリジナルのデータセットを作成。
そして限定ユーザーのみならず、大多数のユーザーがトレーニングと研究に参加できる仕組みを新しく作ります。

トレーニングや研究に参加できる人数が増えたことで、精度を格段に向上させることに成功したのです。

LAION-5Bのデータセットが作られる流れ

LAION-5Bのデータセットが作られる流れ

LAION-5Bのデータセットが作られる流れは、以下のとおりです。

  1. アーカイブからタグの抜粋および分類
  2. 画像データのダウンロード
  3. 低品質データの排除(フィルタリング)
  4. AIモデル「CLIP」によるデータ排除(フィルタリング)
  5. タグおよびメタデータなどの情報付与(アノテーション)

それぞれ、順を追って解説します。

1.アーカイブからタグの抜粋および分類

最初に行われるのは、アーカイブからタグを抜粋したり分類したりする作業です。

具体的にはWebサイト上で画像データに付与されている「imgタグ(<img>)」をすべて抽出したうえで、その画像内に含まれる「alt文字列」を判別。

そして、その文字列を「英語」「その他」もしくは「判別不可」に区分します。

2.画像データのダウンロード

第2ステップとして行われるのが、「画像データのダウンロード」になります。

ポイントになるのは「このフェーズで行われるダウンロードは一時的なもの」という点です。画像のダウンロードはあくまでAI自動生成による処理のために行われるものだからです。

データセットの処理が終わると、ダウンロードされた画像は自動的に削除されます。そのため、最終的にデータセットに画像データがダウンロードされた状態で残ることはありません。

3.低品質データの排除(フィルタリング)

画像のダウンロード後に行われるステップは「低品質データの排除・フィルタリング」です。つまり膨大なデータをふるいにかけ良質な画像データのみ残し、不要な画像データは削除するということです。

これによりデータセットの中身の品質をの向上・維持できるメリットがあります。具体的には、以下に該当する画像が削除されます。

  • 画像に含まれるalt文字列が5文字以下のもの
  • 画像サイズが5KB以下のもの
  • 過剰な高解像度および高画質な画像
  • 同一のURLとなっているimgタグ

4.AIモデル「CLIP」によるデータ排除(フィルタリング)

通常のフィルタリングが完了したら、4つ目のステップとしてAIモデル「CLIP」を用いたさらなるフィルタリング(ふるい分け作業)が行われます。

「CLIP」とはアメリカのOpenAI社が開発・運営するAIモデルのことで、テキスト(主にalt文字列)と画像の関連性の高さを判別できるものです。

「CLIP」によるフィルタリングでは、主に以下の条件に該当する画像が削除されます。

  • 「altの文字」と「画像の内容」の関連性が低い画像
  • 著作権および法律に触れる可能性があるなど、リスクの高いもの

5.タグおよびメタデータなどの情報付与(アノテーション)

最後に行われるのは、タグおよびメタデータなどの情報を付与する作業。いわゆる「アノテーション」と呼ばれる作業になります。

前述2種類のフィルタリングで残された画像には、主に以下のような情報が追加されます。

  • 画像サイズ(幅×高さ)
  • alt文字列の言語
  • CLIPで算出した画像とalt文字列の関連性
  • その他各種確率スコア

LAION-5Bの主な用途

そもそもLAION-5Bが公式で推奨している「LAION-5Bの主な用途」は、以下のとおりです。

大規模なデータセットの研究およびトレーニングを民主化すること

つまりLAION社は、LAION-5Bを「画像コンテンツの生成」の用途で活用するのはおすすめしていません。

たとえばLAION-5Bの代表的な用途として挙げられる、世界トップクラスの画像生成AIモデル「Stable Diffusion」。
運営のStability AI社は、あくまで「テキストだけで画像を自動生成するためのAI実験」を目的としてリリースしているのです。

厳密には研究・トレーニングに用途で活用することが望ましいということは、念頭に置いておきましょう。

なお画像生成AIの利活用に興味のある方は、以下の記事でインストール法などを詳しく解説していますのでぜひ参考にしてください。

【2024】Stable Diffusion 2.0入門!画像生成AIを使ってみよう

LAION-5Bの問題点

現状のLAION-5Bには、以下の問題点があります。

  • 安全性および倫理性に欠けるケースがある
  • リンク先の画像が著作権侵害や違法アップロード対象になる可能性がある

それぞれ解説していきます。

安全性および倫理性に欠けるケースがある

安全性および倫理性に欠けるケースがあることは、LAION-5Bのデメリットといえるでしょう。
実際に2023年の12月、LAION-5Bに約1000枚程度の児童ポルノ画像が含まれていることをスタンフォード大学が発見してニュースになった事例があります。

それだけでなく性的かつ暴力的な内容だったり、極端に偏った偏見や価値観を含む画像が含まれるケースもゼロではありません。
つまりユーザーが意図していなくとも、不適切な内容が提案される可能性があるのです。

ただこの問題は今後、フィルタの性能向上などに伴って改善していくことが期待されています。

リンク先の画像が著作権侵害や違法アップロード対象になる可能性がある

もう一つの問題点は、LAION-5Bのリンク先画像が著作権侵害や違法アップロードの対象になる場合がある、ということです。
LAION-5Bに入っている画像には、違法でアップロードされた画像も含まれているからです。

たとえば提案された画像が違法アップロードされたもので、それをユーザーが知らずに商用利用などした場合、その画像の制作元から訴訟されるのはユーザー自身。LAION社は「著作権問題には一切関与しない」と決めているためです。

LAION-5Bが提案した画像を個人や趣味で利用するのは問題ありませんが、商用利用を行う場合はかならず類似画像の検索など入念な確認・対策を行いましょう。

また生成AIの著作権問題については以下の記事でもくわしく言及しておりますので、参考にしていただければと思います。

生成AIには著作権がある?事例や生成する際に注意したいポイント

強化学習を学ぶおすすめのセミナー

強化学習を学ぶならおすすめは強化学習プログラミングセミナー!

AI研究所が運営する「強化学習プログラミングセミナー」では、画像生成AIにも用いられている強化学習技術やニューラルネットワークを1日の短期集中セミナーで徹底的に学ぶことが可能です。

実務でとくに使われる内容にフォーカスを当てており、強化学習の基礎から応用までをバランスよく混ぜたカリキュラムによって「完全素人の自分でも理解できた」「機械学習モデルを完璧に理解できた」という口コミが続出しています。

また講師には東京大学大学院情報理工学系研究科AIセンターの松原教授を迎えるなど、より効果的に学べる学習環境が整備され、受講満足度は97%以上と高水準

短期集中でスキルアップを狙いたい方は、ぜひご検討ください。

スケジュール/お申し込みはこちらから

LAION-5Bについてまとめ

ここまでLAION-5Bの概要から作成の流れ、問題点などを紹介してきました。LAION-5BはStable Diffusionなどでも用いられている大規模なデータセットで、AIの研究・トレーニングの目的で開発された背景をもっています。

LAION-5Bを理解することで画像生成AIそのものの知見はもちろん、その他関連知識の理解も深まります。
ぜひ興味をもったうえで深堀りしつつ、画像生成AIの利活用および開発業務に役立ててみてはいかがでしょうか。

強化学習プログラミングセミナーの詳細はこちら