AI
2024.10.14
AI関連サービス調査(2024.10) – その他
はじめに興味のある生成サービスを列挙します。動画の字幕生成サービスキャプション生成に特化したAIサービスは、動画や画像に自動でキャプションを付けるための強力なツールを提供しています。以下は、キャプション生成に役立つ代表的なAIサービスです:1. Google Cloud Video Intelligence概要: Google Cloud Video Intelligenceは、動画内の内容を解析し、自動的にキャプションやトランスクリプトを生成します。特に動画のシーンやオブジェクトの認識に優れ、これらをもとにキャプションを自動生成します。特徴: リアルタイムの動画キャプション生成、音声解析、タグ付けが可能で、多言語対応もしています。2. Microsoft Azure Video Indexer概要: MicrosoftのAzure Video Indexerは、動画コンテンツのキャプションを自動生成できるツールです。音声認識技術を使用し、さまざまな言語でのキャプション生成に対応しています。特徴: 音声から
AI
2024.10.14
AI関連サービス調査(2024.10) – Meta Llama3
Llama3とはLlama 3は、Meta(旧Facebook)が開発した大規模言語モデル(Large Language Model)の最新バージョンです。Llamaシリーズは、自然言語処理(NLP)のタスクに特化したAIモデルであり、生成的AI技術の一環として開発されています。Llama 3は、文章生成、会話、翻訳、質問応答、テキスト要約など、幅広いNLPタスクに対応可能なモデルです。特徴:高度な言語理解: Llama 3は、前バージョンに比べてさらに高度なテキスト理解と生成能力を持っており、複雑なタスクにも対応可能です。効率性: Llamaシリーズは、他の大規模言語モデルに比べて計算効率が高く、リソースを抑えながら高精度な結果を提供できるように設計されています。オープンソースライセンス: Llama 3は「Meta Llama 3 Community License」に基づいて提供されており、非商用および商用利用のために利用・改変・再配布が許可されていますが、特定の商業規模を超える場合には別途ライセンスの取得が必要です。主な用途
AI
2024.10.10
AI関連サービス調査(2024.10) – OpenAI
OpenAIプロジェクト別OpenAIが手掛ける革新的なAIプロジェクトは、AI技術の新たな可能性を開く先進的なものが多く、特に以下のプロジェクトが注目されています。1. GPTシリーズ(Generative Pretrained Transformer)概要: GPTシリーズは、自然言語処理(NLP)の分野で非常に革新的なプロジェクトです。トランスフォーマーアーキテクチャに基づく大規模な言語モデルで、膨大なテキストデータを基に学習しています。革新性: 人間に非常に近い自然な文章を生成できる点で画期的。GPT-3やGPT-4は数千億のパラメータを持ち、会話、文章作成、コード生成など、幅広いタスクに対応しています。応用例: チャットボット、コンテンツ生成、翻訳、プログラムの自動化など、さまざまな分野で利用されています。2. DALL-E概要: DALL-Eは、テキストから画像を生成するAIプロジェクトです。ユーザーが入力したテキストに基づき、それに対応するユニークな画像を生成します。革新性: テキストプロンプ
AI
2024.08.8
Google Speech-to-Text APIサンプルアプリの作成 – Remix
はじめに参考https://cloud.google.com/nodejs/docs/reference/speech/latesthttps://cloud.google.com/docs/authentication/application-default-credentials?hl=jahttps://cloud.google.com/speech-to-text/docs/troubleshootinghttps://cloud.google.com/speech-to-text/docs/speech-to-text-requests?hl=jahttps://cloud.google.com/speech-to-text/docs/encoding生成物Remixのフロントで、ブラウザのWeb APIのMediaDevicesを使用して音声を録音RemixのバックエンドのAPIにファイルを送信し、Google STT APIでtranscrtiption(書き起こし)を作成Remixの
AI
2024.08.5
Speech-To-Text(STT)市場の理解
はじめにhttps://deepgram.com/learn/best-speech-to-text-apisdeepgram社の広告記事だが、STTツール市場についてよくまとまっているので、要約するSTT APIを選ぶ際に考慮すべき重要なポイント以下の要素を総合的に評価することで、プロジェクトに最適なSTT APIを選択できる精度:文字起こしの正確さが重要。バックグラウンドノイズや方言、アクセントにも対応できること。速度:低遅延で迅速な処理が求められるアプリケーションが多い。コスト:コスト効率が重要。適切な投資収益率(ROI)と価格対性能比が必要。入力モード:事前録音音声のバッチ処理やリアルタイムストリーミングのサポート。機能と能力:高度なフォーマットや音声理解機能が含まれること。スケーラビリティと信頼性:さまざまなデータ量に対応でき、信頼性が高いこと。カスタマイズと柔軟性:特定の語彙や展開オプションに対応できること。採用と使
AI
2024.04.4
ディープラーニング講座「機械学習Specializationシリーズ- 教師あり機械学習回帰と分類コース」の紹介
機械学習SpecializationシリーズとはDeepLearning.AI社とスタンフォード大学オンラインが共同で作成した基礎的なオンラインプログラムです。この初心者向けのプログラムでは、機械学習の基礎と、これらのテクニックを使用して実際のAIアプリケーションを構築する方法を学習します。https://www.coursera.org/specializations/machine-learning-introduction以下の3つのコースから構成されています。教師あり機械学習回帰と分類高度な学習アルゴリズム教師なし学習, レコメンダー, 強化学習教師あり機械学習回帰と分類コースとは一般的な機械学習ライブラリNumPyとscikit-learnを使用して、Pythonで機械学習モデルを構築します。 - 線形回帰やロジスティック回帰を含む、予測タスクやバイナリ分類タスクのための教師あり機械学習モデルを構築し、訓練します。
AI
2024.03.22
OpenAIが提供する音声認識オープンソースWhisperとは(5)
ソースを確認するtranscribe関数の定義def transcribe( model: "Whisper", audio: Union, *, verbose: Optional = None, temperature: Union = (0.0, 0.2, 0.4, 0.6, 0.8, 1.0), compression_ratio_threshold: Optional = 2.4, logprob_threshold: Optional = -1.0, no_speech_threshold: Optional = 0.6, condition_on_previous_text: bool = True, initial_prompt: Optional = None, word_timestamps: bool = False, prepend_punctuations: str = "\"'“¿([{-"
AI
2024.03.21
OpenAIが提供する音声認識オープンソースWhisperとは(4)
whisperのデバッグ環境構築whisperのソースコードをチェックアウトするgit clone https://github.com/openai/whisper.gitcd whispertest.pyの作成import sysfrom whisper.transcribe import cliif __name__ == '__main__': sys.exit(cli())test.pyの実行python test.py sample.mp4 --language Englishtranscribe.pydef cli():・・・ model = load_model(model_name, device=device, download_root=model_dir)・・・ソースを確認するload_model関数を読むデフォルト時の引数は、model_name=small, device=cpu, download_root=Noneが使用さ
AI
2024.03.18
OpenAIが提供する音声認識オープンソースWhisperとは(3)
transcribe関数の確認def transcribe( model: "Whisper", audio: Union, *, verbose: Optional = None, temperature: Union = (0.0, 0.2, 0.4, 0.6, 0.8, 1.0), compression_ratio_threshold: Optional = 2.4, logprob_threshold: Optional = -1.0, no_speech_threshold: Optional = 0.6, condition_on_previous_text: bool = True, initial_prompt: Optional = None, word_timestamps: bool = False, prepend_punctuations: str = "\"'“¿([{-", appen
AI
2024.03.17
OpenAIが提供する音声認識オープンソースWhisperとは(2)
whisperコマンド実行時のエントリーポイントの確認whisperはpipでインストールする設計なので、whisperのsetup.pyファイル内のentry_pointsを確認する。コマンドラインからwhisperコマンドを実行すると、whisper.transcribe:cliが呼び出されることが確認できる。setup(・・・ entry_points={ "console_scripts": , },・・・)エントリポイント whisper.transcribe:cli のコード確認def cli(): from . import available_models def valid_model_name(name): if name in available_models() or os.path.exists(name): return name raise ValueError(