以前に画像系AIが手や指を認識や表現しにくいという問題がありましたが、
- AI処理で被写体画像から骨格フレームを生成
- 骨格フレームで好きなポーズや状態に変更
- 骨格フレームを利用してAI処理で被写体画像の肉付け処理
という感じで、他のAI処理システムの組み合わせで問題がどんどん解決されていくようです。
最近、画像系AIで「傘」と「団扇」をとても識別しにくいと感じました。人間なら見れば理解できる内容ですが、AIにとっては画像のデータしかなく、傘と団扇の「人間が手に持っていて」「棒状の先に丸いものが付いている」という認識が似ているため、どうにも区別ができないようでした。2次元の画像を多数読み込ませて学習させれば、精度はある程度向上するでしょうが根本的には立体的な3Dデータを学習しないと正確な区別ができないと思われます。
現在は、ChatGPTを代表とする言語系AIが、モールス信号のような1次元の情報処理を行い、単語・文節・文の関係を学習しています。一方、画像・音声系AIは、2次元情報と1次元情報の関係を学習し、単語と画像・音声を繋げるようになっています。さらに3D空間系AIについては、まだ存在しませんが3次元情報・2次元情報・1次元情報の豊富な関係学習を行うことで、空間認識が可能になるでしょう。現時点では、3次元情報(デジタルツイン)も少なく、圧倒的な処理能力機関もありません。ですが、他のAI処理システムが現実の物体をデジタルツイン化していくため、ますます発展することが予想されます。
コメント