あかず 2 months ago 人間と話すときって、相手の顔だったり、動きだったりのマルチモーダルで連続的な情報を得ながら話すんだけど、 LLMは入力テキストのみだからあんまり良い回答ができないんじゃないかなって。