[Ffmpeg-devel] [PATCH] VMD improvement

Wed Mar 8 17:52:13 CET 2006

Here is the patch which allows FFmpeg to:
 * correctly demux VMD without audio or with extra frame data (Lighthouse, Lighthouse demo)
 * correctly demux VMD where data is not immediately follows header (Shivers or Lighthouse, can't remember)
 * VMD demuxer now sets correct PTS for many samples (best seen on 12.vmd from LSL7 and 10010.vmd from GK2, still out of sync for Torin's Passage)
 * Support 16-bit audio and stereo (Lighthouse, 16-bit stereo is buggy)
Comments welcome. If there are no objections, I'll apply it this weekend. I'll try to upload samples somewhere.
-------------- next part --------------
diff -ru --exclude CVS --exclude 'ff*' --exclude '*.o' /home/kst/cvs-get/ffmpeg/libavcodec/vmdav.c ./libavcodec/vmdav.c

--- /home/kst/cvs-get/ffmpeg/libavcodec/vmdav.c	2006-01-13 00:43:17.000000000 +0200
+++ ./libavcodec/vmdav.c	2006-03-08 18:06:46.000000000 +0200
@@ -414,16 +414,28 @@
     int channels;
     int bits;
     int block_align;
-    unsigned char steps8[16];
-    unsigned short steps16[16];
-    unsigned short steps128[256];
-    short predictors[2];
+    int predictors[2];
 } VmdAudioContext;
 
+static uint16_t vmdaudio_table[128] = {
+    0x000, 0x008, 0x010, 0x020, 0x030, 0x040, 0x050, 0x060, 0x070, 0x080,
+    0x090, 0x0A0, 0x0B0, 0x0C0, 0x0D0, 0x0E0, 0x0F0, 0x100, 0x110, 0x120,
+    0x130, 0x140, 0x150, 0x160, 0x170, 0x180, 0x190, 0x1A0, 0x1B0, 0x1C0,
+    0x1D0, 0x1E0, 0x1F0, 0x200, 0x208, 0x210, 0x218, 0x220, 0x228, 0x230,
+    0x238, 0x240, 0x248, 0x250, 0x258, 0x260, 0x268, 0x270, 0x278, 0x280,
+    0x288, 0x290, 0x298, 0x2A0, 0x2A8, 0x2B0, 0x2B8, 0x2C0, 0x2C8, 0x2D0,
+    0x2D8, 0x2E0, 0x2E8, 0x2F0, 0x2F8, 0x300, 0x308, 0x310, 0x318, 0x320,
+    0x328, 0x330, 0x338, 0x340, 0x348, 0x350, 0x358, 0x360, 0x368, 0x370,
+    0x378, 0x380, 0x388, 0x390, 0x398, 0x3A0, 0x3A8, 0x3B0, 0x3B8, 0x3C0,
+    0x3C8, 0x3D0, 0x3D8, 0x3E0, 0x3E8, 0x3F0, 0x3F8, 0x400, 0x440, 0x480,
+    0x4C0, 0x500, 0x540, 0x580, 0x5C0, 0x600, 0x640, 0x680, 0x6C0, 0x700,
+    0x740, 0x780, 0x7C0, 0x800, 0x900, 0xA00, 0xB00, 0xC00, 0xD00, 0xE00,
+    0xF00, 0x1000, 0x1400, 0x1800, 0x1C00, 0x2000, 0x3000, 0x4000
+};
+
 static int vmdaudio_decode_init(AVCodecContext *avctx)
 {
     VmdAudioContext *s = (VmdAudioContext *)avctx->priv_data;
-    int i;
 
     s->avctx = avctx;
     s->channels = avctx->channels;
@@ -433,53 +445,25 @@
     av_log(s->avctx, AV_LOG_DEBUG, "%d channels, %d bits/sample, block align = %d, sample rate = %d\n",
             s->channels, s->bits, s->block_align, avctx->sample_rate);
 
-    /* set up the steps8 and steps16 tables */
-    for (i = 0; i < 8; i++) {
-        if (i < 4)
-            s->steps8[i] = i;
-        else
-            s->steps8[i] = s->steps8[i - 1] + i - 1;
-
-        if (i == 0)
-            s->steps16[i] = 0;
-        else if (i == 1)
-            s->steps16[i] = 4;
-        else if (i == 2)
-            s->steps16[i] = 16;
-        else
-            s->steps16[i] = 1 << (i + 4);
-    }
-
-    /* set up the step128 table */
-    s->steps128[0] = 0;
-    s->steps128[1] = 8;
-    for (i = 0x02; i <= 0x20; i++)
-        s->steps128[i] = (i - 1) << 4;
-    for (i = 0x21; i <= 0x60; i++)
-        s->steps128[i] = (i + 0x1F) << 3;
-    for (i = 0x61; i <= 0x70; i++)
-        s->steps128[i] = (i - 0x51) << 6;
-    for (i = 0x71; i <= 0x78; i++)
-        s->steps128[i] = (i - 0x69) << 8;
-    for (i = 0x79; i <= 0x7D; i++)
-        s->steps128[i] = (i - 0x75) << 10;
-    s->steps128[0x7E] = 0x3000;
-    s->steps128[0x7F] = 0x4000;
-
-    /* set up the negative half of each table */
-    for (i = 0; i < 8; i++) {
-        s->steps8[i + 8] = -s->steps8[i];
-        s->steps16[i + 8] = -s->steps16[i];
-    }
-    for (i = 0; i < 128; i++)
-      s->steps128[i + 128] = -s->steps128[i];
-
     return 0;
 }
 
 static void vmdaudio_decode_audio(VmdAudioContext *s, unsigned char *data,
-    uint8_t *buf, int ratio) {
+    uint8_t *buf, int stereo)
+{
+    int i;
+    int chan = 0;
+    int16_t *out = (int16_t*)data;
 
+    for(i = 0; i < s->block_align; i++) {
+        if(buf[i] & 0x80)
+            s->predictors[chan] -= vmdaudio_table[buf[i] & 0x7F];
+        else
+            s->predictors[chan] += vmdaudio_table[buf[i]];
+        s->predictors[chan] = clip(s->predictors[chan], -32768, 32767);
+        out[i] = s->predictors[chan];
+        chan ^= stereo;
+    }
 }
 
 static int vmdaudio_loadsound(VmdAudioContext *s, unsigned char *data,
@@ -488,44 +472,39 @@
     int bytes_decoded = 0;
     int i;
 
-    if (silence)
-        av_log(s->avctx, AV_LOG_INFO, "silent block!\n");
+//    if (silence)
+//        av_log(s->avctx, AV_LOG_INFO, "silent block!\n");
     if (s->channels == 2) {
 
         /* stereo handling */
-        if ((s->block_align & 0x01) == 0) {
-            if (silence)
-                memset(data, 0, s->block_align * 2);
-            else
-                vmdaudio_decode_audio(s, data, buf, 1);
+        if (silence) {
+            memset(data, 0, s->block_align * 2);
         } else {
-            if (silence)
-                memset(data, 0, s->block_align * 2);
-            else
+            if (s->bits == 16)
                 vmdaudio_decode_audio(s, data, buf, 1);
+            else
+                /* copy the data but convert it to signed */
+                for (i = 0; i < s->block_align; i++)
+                    data[i * 2 + 1] = buf[i] + 0x80;
         }
     } else {
+        bytes_decoded = s->block_align * 2;
 
         /* mono handling */
         if (silence) {
+            memset(data, 0, s->block_align * 2);
+        } else {
             if (s->bits == 16) {
-                memset(data, 0, s->block_align * 2);
-                bytes_decoded = s->block_align * 2;
+                vmdaudio_decode_audio(s, data, buf, 0);
             } else {
-//                memset(data, 0x00, s->block_align);
-//                bytes_decoded = s->block_align;
-memset(data, 0x00, s->block_align * 2);
-bytes_decoded = s->block_align * 2;
+                /* copy the data but convert it to signed */
+                for (i = 0; i < s->block_align; i++)
+                    data[i * 2 + 1] = buf[i] + 0x80;
             }
-        } else {
-            /* copy the data but convert it to signed */
-            for (i = 0; i < s->block_align; i++)
-                data[i * 2 + 1] = buf[i] + 0x80;
-            bytes_decoded = s->block_align * 2;
         }
     }
 
-    return bytes_decoded;
+    return s->block_align * 2;
 }
 
 static int vmdaudio_decode_frame(AVCodecContext *avctx,
diff -ru --exclude CVS --exclude 'ff*' --exclude '*.o' /home/kst/cvs-get/ffmpeg/libavformat/sierravmd.c ./libavformat/sierravmd.c
--- /home/kst/cvs-get/ffmpeg/libavformat/sierravmd.c	2006-01-13 00:43:25.000000000 +0200
+++ ./libavformat/sierravmd.c	2006-03-08 18:14:25.000000000 +0200
@@ -49,6 +49,7 @@
     unsigned int audio_channels;
 
     unsigned int frame_count;
+    unsigned int frames_per_block;
     vmd_frame_t *frame_table;
     unsigned int current_frame;
 
@@ -56,6 +57,7 @@
     int64_t audio_sample_counter;
     int audio_frame_divisor;
     int audio_block_align;
+    int skiphdr;
 
     unsigned char vmd_header[VMD_HEADER_SIZE];
 } VmdDemuxContext;
@@ -87,6 +89,10 @@
 
     if (audio_chunk_size < 16)
         return 0;
+    if (audio_chunk_size == block_align + 16)
+        return block_align;
+    if (audio_chunk_size == block_align + 17)
+        return block_align;
 
     sound_flags = LE_32(p);
     p += 4;
@@ -96,6 +102,7 @@
             p += block_align;
         sound_flags >>= 1;
     }
+    av_log(NULL,0,"Got %i samples for size %i map %08X\n", total_samples, audio_chunk_size, LE_32(audio_chunk));
 
     return total_samples;
 }
@@ -109,12 +116,13 @@
     unsigned int toc_offset;
     unsigned char *raw_frame_table;
     int raw_frame_table_size;
-    unsigned char *current_frame_record;
     offset_t current_offset;
-    int i;
+    int i, j;
     unsigned int total_frames;
-    int64_t video_pts_inc;
+    int64_t video_pts_inc = 0;
     int64_t current_video_pts = 0;
+    unsigned char chunk[BYTES_PER_FRAME_RECORD];
+    int lastframe = 0;
 
     /* fetch the main header, including the 2 header length bytes */
     url_fseek(pb, 0, SEEK_SET);
@@ -136,6 +144,8 @@
     st->codec->codec_tag = 0;  /* no fourcc */
     st->codec->width = LE_16(&vmd->vmd_header[12]);
     st->codec->height = LE_16(&vmd->vmd_header[14]);
+    st->codec->time_base.num = 1;
+    st->codec->time_base.den = 10;
     st->codec->extradata_size = VMD_HEADER_SIZE;
     st->codec->extradata = av_mallocz(VMD_HEADER_SIZE + FF_INPUT_BUFFER_PADDING_SIZE);
     memcpy(st->codec->extradata, vmd->vmd_header, VMD_HEADER_SIZE);
@@ -150,48 +160,43 @@
         vmd->audio_stream_index = st->index;
         st->codec->codec_type = CODEC_TYPE_AUDIO;
         st->codec->codec_id = CODEC_ID_VMDAUDIO;
-        st->codec->codec_tag = 0;  /* no codec tag */
-        st->codec->channels = (vmd->vmd_header[811] & 0x80) ? 2 : 1;
+        st->codec->codec_tag = 0;  /* no fourcc */
+        st->codec->channels = vmd->audio_channels = (vmd->vmd_header[811] & 0x80) ? 2 : 1;
         st->codec->sample_rate = vmd->sample_rate;
         st->codec->block_align = vmd->audio_block_align =
             LE_16(&vmd->vmd_header[806]);
         if (st->codec->block_align & 0x8000) {
             st->codec->bits_per_sample = 16;
             st->codec->block_align = -(st->codec->block_align - 0x10000);
-        } else
-            st->codec->bits_per_sample = 16;
-//            st->codec->bits_per_sample = 8;
+            vmd->audio_block_align = -(vmd->audio_block_align - 0x10000);
+        } else {
+            st->codec->bits_per_sample = 8;
+        }
         st->codec->bit_rate = st->codec->sample_rate *
             st->codec->bits_per_sample * st->codec->channels;
 
         /* for calculating pts */
-        vmd->audio_frame_divisor = st->codec->bits_per_sample / 8 /
-            st->codec->channels;
+        vmd->audio_frame_divisor = st->codec->channels;
 
         video_pts_inc = 90000;
         video_pts_inc *= st->codec->block_align;
         video_pts_inc /= st->codec->sample_rate;
+        video_pts_inc /= st->codec->channels;
     } else {
         /* if no audio, assume 10 frames/second */
         video_pts_inc = 90000 / 10;
     }
 
-    /* skip over the offset table and load the table of contents; don't
-     * care about the offset table since demuxer will calculate those
-     * independently */
     toc_offset = LE_32(&vmd->vmd_header[812]);
     vmd->frame_count = LE_16(&vmd->vmd_header[6]);
-    url_fseek(pb, toc_offset + vmd->frame_count * 6, SEEK_SET);
+    vmd->frames_per_block = LE_16(&vmd->vmd_header[18]);
+    url_fseek(pb, toc_offset, SEEK_SET);
 
-    /* each on-disk VMD frame has an audio part and a video part; demuxer
-     * accounts them separately */
-    if(vmd->sample_rate)
-        vmd->frame_count *= 2;
     raw_frame_table = NULL;
     vmd->frame_table = NULL;
-    raw_frame_table_size = vmd->frame_count * BYTES_PER_FRAME_RECORD;
+    raw_frame_table_size = vmd->frame_count * 6;
     raw_frame_table = av_malloc(raw_frame_table_size);
-    vmd->frame_table = av_malloc(vmd->frame_count * sizeof(vmd_frame_t));
+    vmd->frame_table = av_malloc(vmd->frame_count * vmd->frames_per_block * sizeof(vmd_frame_t));
     if (!raw_frame_table || !vmd->frame_table) {
         av_free(raw_frame_table);
         av_free(vmd->frame_table);
@@ -204,50 +209,51 @@
         return AVERROR_IO;
     }
 
-    current_offset = LE_32(&vmd->vmd_header[20]);
-    current_frame_record = raw_frame_table;
-    total_frames = vmd->frame_count;
-    i = 0;
-    while (total_frames--) {
-
-        /* if the frame size is 0, do not count the frame and bring the
-         * total frame count down */
-        // note, we limit the size to 1Gb to ensure that we dont end up overflowing the size integer used to allocate the memory
-        vmd->frame_table[i].frame_size = LE_32(&current_frame_record[2]) & 0x3FFFFFFF;
-
-        /* this logic is present so that 0-length audio chunks are not
-         * accounted */
-        if (!vmd->frame_table[i].frame_size) {
-            vmd->frame_count--;  /* one less frame to count */
-            current_frame_record += BYTES_PER_FRAME_RECORD;
-            continue;
-        }
+    total_frames = 0;
+    for (i = 0; i < vmd->frame_count; i++) {
 
-        if (current_frame_record[0] == 0x02)
-            vmd->frame_table[i].stream_index = vmd->video_stream_index;
-        else
-            vmd->frame_table[i].stream_index = vmd->audio_stream_index;
-        vmd->frame_table[i].frame_offset = current_offset;
-        current_offset += vmd->frame_table[i].frame_size;
-        memcpy(vmd->frame_table[i].frame_record, current_frame_record,
-            BYTES_PER_FRAME_RECORD);
-
-        /* figure out the pts for this frame */
-        if (current_frame_record[0] == 0x02) {
-            vmd->frame_table[i].pts = current_video_pts;
-            current_video_pts += video_pts_inc;
-        } else if (current_frame_record[0] == 0x01) {
-            /* figure out the pts during the dispatch phase */
-            vmd->frame_table[i].pts = 0;
-        }
+        current_offset = LE_32(&raw_frame_table[6 * i + 2]);
 
-        current_frame_record += BYTES_PER_FRAME_RECORD;
-        i++;
+        /* handle each entry in index block */
+        for (j = 0; j < vmd->frames_per_block; j++) {
+            int type;
+            uint32_t size;
+
+            get_buffer(pb, chunk, BYTES_PER_FRAME_RECORD);
+            type = chunk[0];
+            size = LE_32(&chunk[2]);
+            if(!size)
+                continue;
+            switch(type) {
+            case 1: /* Audio Chunk */
+                vmd->frame_table[total_frames].frame_offset = current_offset;
+                vmd->frame_table[total_frames].stream_index = vmd->audio_stream_index;
+                vmd->frame_table[total_frames].frame_size = size;
+                memcpy(vmd->frame_table[total_frames].frame_record, chunk, BYTES_PER_FRAME_RECORD);
+                total_frames++;
+                break;
+            case 2: /* Video Chunk */
+                vmd->frame_table[total_frames].frame_offset = current_offset;
+                vmd->frame_table[total_frames].frame_size = size;
+                vmd->frame_table[total_frames].stream_index = vmd->video_stream_index;
+                memcpy(vmd->frame_table[total_frames].frame_record, chunk, BYTES_PER_FRAME_RECORD);
+                vmd->frame_table[total_frames].pts = current_video_pts;
+                if (lastframe) {
+                    vmd->frame_table[lastframe].pts = current_video_pts - video_pts_inc;
+                }
+                lastframe = total_frames;
+                total_frames++;
+                break;
+            }
+            current_offset += size;
+        }
+        current_video_pts += video_pts_inc;
     }
 
     av_free(raw_frame_table);
 
     vmd->current_frame = 0;
+    vmd->frame_count = total_frames;
 
     return 0;
 }
@@ -285,7 +291,7 @@
         pkt->pts = vmd->audio_sample_counter;
         pkt->pts *= 90000;
         pkt->pts /= vmd->sample_rate;
-//        pkt->pts /= vmd->audio_frame_divisor;
+        pkt->pts /= vmd->audio_channels;
         vmd->audio_sample_counter += vmd_calculate_audio_duration(
             pkt->data, pkt->size, vmd->audio_block_align);