古事連記帖

趣味のこと、技術的なこと、適当につらつら書きます。

Twitterの日本語ハッシュタグに鉄槌を下す方法

近頃Twitterで日本語でのハッシュタグが追加されました。
おそらく外国人が「俺たちのタグにわけわからん文章っぽいのがうじゃうじゃあるぜ!!これはJapaneseだな!!おのれJ(ry」という苦情が絶えなかったからだと思います(そんなことはない
きっと、今までのローマ字ハッシュタグに置き換わって平和に運用されていくのだろう…と思っていたのですが、一部のネタクラスタにより日本語ハッシュタグは「大喜利」として活用されてしまう羽目に。今までは静観していたのですが、あまりにも数が多すぎてうんざりしてきましたので、どうにか平和的に解決できないかと。
しかも他のタグと違って、単純なマッチパターン(単語一致とか)ではフィルターできないのがやっかい。毎度変わるので対応が大変です。


そこで、こんな感じにすれば幸せになれました。

#[ぁ-ヶ亜-鄢].[^  ]{10,}$

要は、日本語ハッシュタグとなる文字列の後ろに半角・全角スペースがない(つまりハッシュタグが末尾にある)とき、かつ文字数が10文字以上ある場合は大喜利ハッシュタグとして認定して検知します。というもの。


ちなみにこれは.NET FrameworkRegexクラスで使う前提で書いてるので、もしかすると他のでは使えないかも?要確認で。
あと、これよりもっと良い方法があれば教えてください ;-D