gpsnmeajp 8 hours ago まあ 人間が言語化できないものを、あるいは 言語化したところで経験則に近いものを、言語モデルに評価させようというのが そもそも無理である。 まあ 機械学習 モデルを それ用に組めばもっと いけるのかもしれないけど。
gpsnmeajp 8 hours ago まあ 少なくとも 書式設定を指定してるのにその書式を守らない時はだいたいいろいろ 壊れてるので、それを検知して自動リトライするだけでも信頼性 上がるんじゃないかな っていうのが最近ちょっと考えてるところ
gpsnmeajp 8 hours ago なんとなく それっぽい 指標が得られればいい状況においてはLLM as a Judge便利なんだけどね。 こと 信頼性的側面だと そもそもその基準点がどうこうって話になりやすい。 論理的一貫性とかを検証させるのもなかなか難しいというか何と言うか。言語モデルの好みに振り回されてる感を感じたことがある。
gpsnmeajp 8 hours ago 言語モデルの出力を ジャッジするのが 言語モデルっていう状態がいまいち 信用しきれなくて。 というのも 自分のプロンプト 設計だとスコア化させるにも スコアが絶妙に安定しないというか。
gpsnmeajp 8 hours ago AI 情報の合議制を実現する パイプラインみたいのを組み立てれば多分もうちょっとマシなものはできるんだろうなあ とか。 あと数千回 出力させて平均を見るとかそういうやり方もあるらしい というのは見たことある。
gpsnmeajp 8 hours ago AI に AI を呼び出させてなんかさせるのは、結構難しくて。 元の AI が出っ張りすぎると 内部知識に振り回される、元の AI が 引っ込みすぎると 呼び出し先の AI の出力に振り回される。 どっちにしろ ハルシネーションから逃れられない。
gpsnmeajp 8 hours ago これやろうと思ったけど、多分 少なくとも 今は 成り立たないなと思ってやめたなあ。 フロントの AI の賢さに依存してしまうところが強いからだったかな。 View quoted note →
gpsnmeajp 8 hours ago 結局自分で真偽を判断できないほど知識のない分野においては、検索しようと AI を使おうと騙されるんだよな。 そういう状況においては 権威性 すなわち ブランドを頼るしかないので、まだ検索の方が役に立つ。