OpenAIと提携するFigure ヒューマノイドロボット「Figure 01」のデモ動画を公開

2024年3月22日
AIニュース

AIロボティクス開発会社のFigureは3月14日、ヒューマノイドロボット「Figure 01」のデモ動画をX（旧Twitter）上で公開しました。

公開された2分30秒程度の動画では、同社のニューラルネットワークとOpenAIの視覚認識・自然言語処理との組み合わせによって実現したFigure 01の性能が見受けられます。

With OpenAI, Figure 01 can now have full conversations with people

-OpenAI models provide high-level visual and language intelligence
-Figure neural networks deliver fast, low-level, dexterous robot actions

Everything in this video is a neural network: pic.twitter.com/OJzMjCv443
— Figure (@Figure_robot) March 13, 2024

1 人間と会話をしながら判断・動作が可能
2 マルチモーダルAIの活用で高度な認知能力を実現
3 まとめ

人間と会話をしながら判断・動作が可能

動画の冒頭では、Figure 01に「今何が見えるか」と尋ねると、Figure 01は「テーブルの中央の皿の上に赤いリンゴ、カップと皿が置かれたラック、そしてあなたがテーブルのに手を置いて近くになっていました」と、テーブルの上に置かれたモノを的確に説明しています。これより、Figure 01が優れた言語能力と視覚認識能力を備えていることがわかります。

さらに、「何か食べるものはありますか？」と尋ねると、Figure 01がテーブル上からリンゴを手に取って渡しています。その理由を尋ねられると、「テーブルの上で唯一食べられるものがリンゴだったから」と的確に回答しています。他のタスクを並行して処理しながら、指示内容を論理的に理解していることがわかります。

マルチモーダルAIの活用で高度な認知能力を実現

FigureのAIエンジニア、コーリー・リンチ氏は、Figure 01が視覚体験を言葉で説明し、行動を立案し、過去の記憶を振り返り、推論の過程を言語化できる優れた知能を備えていると説明しています。

Figure 01では、搭載カメラからの画像入力と音声入力を、OpenAIによって高度に訓練されたマルチモーダルAIモデルに与えることで、高度な認知能力を実現しています。

また、リンチ氏によると、Figure 01の行動は全て事前の学習に基づいて自律的に実行されており、遠隔操作は一切使われていないとのこと。AIモデルは過去の画像を含む会話履歴から継続的に学習し、質問への自然言語での応答を音声に変換して返答します。

Let's break down what we see in the video:

All behaviors are learned (not teleoperated) and run at normal speed (1.0x).

We feed images from the robot's cameras and transcribed text from speech captured by onboard microphones to a large multimodal model trained by OpenAI that… pic.twitter.com/DUkRlVw5Q0
— Corey Lynch (@coreylynch) March 13, 2024

Figureは、2024年にOpenAIとの協業関係を発表しています。今回のデモで披露した言語処理・推論能力は、OpenAIの研究成果を取り入れたことで飛躍的に向上したものです。今後は協業によりロボットの機能強化を重ね、市場投入に向けた開発期間の短縮が期待されます。

まとめ

AIロボティクス開発会社のFigureはOpenAIの言語モデルを組み込んだヒューマノイドロボット「Figure 01」のデモ動画を公開しました。

Figure 01のデモ動画では、目に見えた物体を的確に説明する、指示に従って推論して行動するといった高度な視覚認識・言語処理能力がわかります。

生成AIとの融合によって、さらなる進化が期待されるロボットの活躍に注目が集まります。