【作ってみた】ローカルLLM×RAGが切り拓く「フィジカルAI」への第一歩〜自社専用のAIパートナー構築体験〜

みなさん、こんにちは。広域システム営業部です。

今、AIは「画面の中」から「現実世界」へと飛び出そうとしています。

セキュリティと高速処理に優れる『ローカルLLM』は、今や単なる対話ツールを超え、企業のDXやプロダクトの中核を担う強力な実用エンジンとなりました。身近な例では、コンビニエンスストアで導入が進む「等身大AIアバターによる接客」などを目にしたことがある方も多いのではないでしょうか。

これがさらに一歩進み、コミュニケーションロボットなどのハードウェアにローカルLLMが組み込まれるとどうなるか。AIは自ら現実世界を認識し、物理的に干渉できる「フィジカルAI」へと進化を遂げます。このパラダイムシフトの鍵を握るのが、「VLA（Vision-Language-Action：視覚・言語・行動）モデル」と呼ばれる最先端技術です。

そこで今回は、「AIが現実世界と繋がる感覚」を実際に体感すべく、実験的なプロトタイプを作成してみました。その動作の様子と可能性を、ご紹介させていただきます！

1. AIを支える「3つの柱」

まず、どの様な構成にするかを下記の様に考えてみました。

2. どんなアプリケーションが必要？

1. Visual Studio Code

世界中でいちばん使われているプログラミング用の「ノート（テキストエディタ）」
「バラバラのパーツ（脳・記憶・声）を自分の手で組み立てて、1つに纏める為に使用しました。

2. Ollama

パソコンの中に、ChatGPTのようなAIの『脳みそ』を実装し動かしてくれるアプリ」です。
「外部のインターネット（ChatGPTなど）に一切頼らず、ローカル環境でおしゃべりや書類の理解を完結させる、
独立した『頭脳』そのもの」になります

3. Llama 3.1 8B

今回の構築におけるLlama 3.1 8Bの役割は、パソコンの中に、『（人格）』を宿します
例えるとOllamaが、ゲーム機（ハードウェアを動かす機械）だとすれば、Llama 3.1 8Bはハードで動かす「（ソフト）」のような関係です。
OllamaにこのLlama 3.1 8Bを読み込ませることで、初めてAIが言葉を話せるようになります

4.AnythingLLM

RAGの部分になります。RAGを使うと、AIは自分の記憶だけに頼らず、用意した資料をその場でめくって確認してから答えるようになるため、
嘘(ハルシネーション)が劇的に減り、専門的なことにも完璧に答えられるようになります。今回の構築におけるAnythingLLMの役割は、
「AIの頭脳（Llama 3.1 8B）に直接ケーブルで繋がっている、大容量の『外付けハードディスク（記憶装置）』」みたいなものです。
今回はこの中にデモを回答させてい情報を入れ込んでいきます。

3. プログラムを合奏させよう！

では、前述した異なる役割のプログラムを組み合わせます

Ollama　思考を担当する「脳」の部分
AnythingLLM　知識を管理する「記憶」の部分
VOICEVOX　個性を生む「声」の部分
2Dアニメーション　ロボットを想定した「見た目」の部分

4. 実際に組み合わせて構築したローカルＬＬＭ+ＲＡＧはこんな感じです

今回はMSIノート/Windows11/VRAM8G環境で構築しましたが、RAGを実装した場合、VRAMは16GB以上は欲しい所です
※RAG上の直接回答であればもう少しレスポンスは早いですが、今回の様にUIへ値を渡して音声回答ですと、8Gだともどかしい感じでした。

今回の様に簡単な構築を試しに組まれる場合、Linux環境であれば、MSI EdgeXpertもお勧めです。

→MSI EdgeXpert

今回は例えば自分の目の前に自立型ロボットが居て、話しかけたらどんな感じか？を妄想して構築をしましたが
開発環境が整えば、Isaac Simで3Dモデルのロボットモデルをシュミレーションして、ローカルLLMと連携し
Omniverse上で動かしてみたいというのが、個人的な思いでもあります

→【技術レポート】Omniverseを導入してみました

 →AI開発(LLM・生成AI)向け、大規模演算、AIサーバー・ハイエンドGPU搭載モデルはこちら

一見すると「プログラミングやAIの難しい知識が必要なのでは？」と思うかもしれません。
しかし今は「Ollama」や「AnythingLLM」などの素晴らしいアプリのおかげで、数行の命令だけで作れる時代になりました。
目の前で自分のパソコン（ローカル）が、意思を持ったように賢く喋り、自社のマニュアルを完璧に理解した瞬間は、きっと感動するはずです。
ぜひ、自分だけの頼れるパートナー作りに挑戦してみてください！

このように、今や数行のコードと便利なツールで独自のAIを構築できる時代です。しかし、これを実際のビジネス現場へ導入したり、Isaac Simのような高度なシミュレーションと連携させようとすると、「最適なGPUの選定」や「安定したオンプレミス環境の構築」といったハードウェア・インフラの壁が立ちはだかります。

「AIを活用したいが、どんなPCやサーバーを選べばいいかわからない」「開発環境の構築からサポートしてほしい」。アプライドは、そんなお客様の構想をハードウェアとソリューションの両面から強力にバックアップいたします。

【作ってみた】ローカルLLM×RAGが切り拓く「フィジカルAI」への第一歩〜自社専用のAIパートナー構築体験〜

1. AIを支える「3つの柱」