ASUS を ASUS って読んでるんですか? 僕は ASUS って読んでますね。
一番確実なのはプロフィールに「私、日本語喋ります」のラベルを付けられるようにする事なんだろうけどね。
昔、Vim で編集中のコードがどのプログラミング言語かを Vim script だけで判定するというネタをやった事があったな。
あぁ、Go の実装見るとトークナイズするのに trigram を使ってるから案外コード量が多いな。普通に unicode class で分割してもよさそうなのにね。
たぶん自分でモデル作るにしても一番作りやすそうな分野やね。言語名とそのテキストを無限に食わせ続ければできる。
だいたいこういうのは多言語に移植されるんよねと思ったら普通に Go もあった。
unicode class である程度は絞れて、それ以外をウェイト判定って感じみたいね。まぁそうやろねというコード。
fastText がやってるのと似た感じ。
言語判定、まぁたぶん unicode code point にして float16 化してウェイトと内積したら出力層のどれかの数値が高くなるとか、そんなのでしょ?