うーん、やっぱり最高に自分好みのやつ作るか
ggったらそれらしいの普通に出てきた。
この木なんの木 AST〜
= a + a 1 /+ /= んー、これだと演算子が他の文法の言語に吸われて好ましくないか?
あらゆるをほったらかしにして物思いにふけっているわけですが、そろそろ現実と向き合わなければまずくて
いやまあ、学習データにその言語が入ってるかどうかが一番アレではあるんですけど
LLM、それぞれの区間の始まりに対応する終端文字があると結構よくなる気がしてる
テストケースを生成するコードを実装して、そのコードを確認する感じにすれば行けるかなとか思ったりしてる
一応簡単なトークナイザとパーサは書いた。けど、テストがどうしても厳しいよなーになってる
トークン数を節約しながら、区間の始まりと終わりをはっきりとしたトークンで表現したい